RUS  ENG
Полная версия
ЖУРНАЛЫ // Проблемы управления // Архив

Пробл. управл., 2019, выпуск 2, страницы 41–46 (Mi pu1129)

Информационные технологии в управлении

Система автоматической обработки тематически ориентированных текстов с терминологическим словарем в формате регулярных выражений

В. С. Суховеров

Институт проблем управления им. В.А. Трапезникова РАН, г. Москва

Аннотация: Разработана система автоматической обработки текстов, оценивающая тематику текста по его терминологии, которая задается словарем терминов. Предложено и обосновано применение регулярных выражений в предметно ориентированных словарях, используемых в программах анализа текста на естественных языках. Отмечена и описана взаимосвязь регулярных выражений и конечных автоматов через регулярные множества. Предложена количественная оценка тематической направленности исследуемого текста — профиль документа, вычисляемый по результатам поиска терминов. Система реализована в виде программного комплекса с вариантом словаря для выбранной предметной области — теории управления и ее приложений. Система протестирована на архиве журнала «Автоматика и телемеханика». Получены профили тематической направленности статей, взятых из различных рубрик журнала. Указаны возможности развития системы.

Ключевые слова: термин, словарь предметной области, регулярное выражение, конечный автомат, профиль документа, программный комплекс.

УДК: 004.912

Поступила в редакцию: 27.09.2018
Исправленный вариант: 22.10.2018
Принята в печать: 12.12.2018

DOI: 10.25728/pu.2019.2.5



© МИАН, 2024