RUS  ENG
Полная версия
ЖУРНАЛЫ // Системы и средства информатики // Архив

Системы и средства информ., 2019, том 29, выпуск 3, страницы 52–65 (Mi ssi654)

Эта публикация цитируется в 1 статье

Метод кластеризации новостных сообщений средств массовой информации на основе их концептуального анализа

В. Н. Захаровa, Р. Р. Мусабаевb, А. М. Красовицкийb, Я. Д. Козловскаяc, Ал-др А. Хорошиловd, Ал-ей А. Хорошиловe

a Федеральный исследовательский центр «Информатика и управление» Российской академии наук
b Институт информационных и вычислительных технологий, Алматы, Казахстан
c Московский авиационный институт (национальный исследовательский университет)
d Институт проблем информатики Федерального исследовательского центра «Информатика и управление» Российской академии наук
e 27 ЦНИИ Министерства обороны России

Аннотация: Изложено решение задачи кластеризации сообщений средств массовой информации (СМИ) на основе разработанной авторами методики автоматического вычисления меры смысловой значимости наименований понятий документов, использующей их статистические, синтаксические и семантические признаки, и технологий автоматического составления декларативных средств для кластеризации документов, базирующихся на методах их семантико-синтаксического и концептуального анализа. На основе предложенной методики вычисления меры смысловой значимости наименований понятий и созданных в процессе проведения настоящего исследования программных и декларативных средств был поставлен эксперимент по обработке представительного массива сообщений СМИ. Анализ полученных результатов показал, что при автоматическом установлении смысловой значимости текстовых наименований понятий использование семантических коррелирующих коэффициентов понятий повышает точность установления смысловой схожести между документами.

Ключевые слова: кластеризация текстов, семантико-синтаксический анализ текстов, концептуальный анализ текстов, декларативные средства, статистическая мера значимых слов документа, семантический корреляционный коэффициент, смысловая близость текстов.

Поступила в редакцию: 23.07.2019

DOI: 10.14357/08696527190305



© МИАН, 2024