Аннотация:
Рассмотрены наиболее актуальные методы вычисления релевантности (значимости) фрагментов текста на основе анализа тематических моделей для последующего построения аннотаций в форме выдержек, т.е. аннотаций, полностью состоящих из последовательности фрагментов исходного текста. В качестве тематических моделей выбраны популярные модели семантики документов и коллекции документов, используемые в задачах анализа текстовой информации: модели, основанные на латентно-семантическом анализе, модель вероятностного латентно-семантического анализа и модель скрытого распределения Дирихле. Предложен новый метод вычисления релевантности фрагментов текста, основанный на оценке весов тематик в нормализованном пространстве тематик, получаемом с помощью факторизации неотрицательных матриц, которая используется в качестве матричного разложения в модели латентно-семантического анализа. Эксперименты, проведенные с использованием методов автоматического аннотирования на эталонных тестовых наборах DUC 2001 и DUC 2002 на основе стандартных метрик оценки качества аннотаций ROUGE, показали превосходство методов вычисления релевантности фрагментов текста, основанных на латентно-семантическом анализе, по сравнению с методами, основанными на вероятностных тематических моделях, по качеству получаемых аннотаций. Приведены результаты тестирования, показывающие, что предложенный метод вычисления релевантности фрагментов текста, использующий факторизацию неотрицательных матриц для тематического моделирования, дает лучшие результаты по сравнению со всеми рассмотренными методами. Работа выполнена в рамках государственного контракта № 14.514.11.4016 и при поддержке РФФИ (проекты 11-07-00616 и 12-07-00585).