Аннотация:
Изложено решение задачи кластеризации сообщений средств массовой информации
(СМИ) на основе разработанной
авторами методики автоматического вычисления меры смысловой значимости наименований
понятий документов, использующей их статистические, синтаксические и семантические
признаки, и технологий автоматического составления декларативных средств для
кластеризации документов, базирующихся на методах их семантико-синтаксического
и концептуального анализа. На основе предложенной методики вычисления меры смысловой
значимости наименований понятий и созданных в процессе проведения настоящего
исследования программных и декларативных средств был поставлен эксперимент по
обработке представительного массива сообщений СМИ. Анализ полученных результатов
показал, что при автоматическом установлении смысловой значимости текстовых
наименований понятий использование семантических коррелирующих коэффициентов
понятий повышает точность установления смысловой схожести между документами.
Ключевые слова:кластеризация текстов, семантико-синтаксический анализ текстов, концептуальный анализ текстов, декларативные средства, статистическая мера значимых слов документа, семантический корреляционный коэффициент, смысловая близость текстов.