RUS  ENG
Полная версия
ЖУРНАЛЫ // Вычислительные методы и программирование // Архив

Выч. мет. программирование, 2015, том 16, выпуск 1, страницы 26–38 (Mi vmp516)

Регуляризация многоязычных тематических моделей

М. А. Дударенко

Московский государственный университет имени М. В. Ломоносова, факультет вычислительной математики и кибернетики

Аннотация: Предлагается многоязычная вероятностная тематическая модель, одновременно учитывающая двуязычный словарь и связи между документами параллельной или сравнимой коллекции. Для комбинирования этих двух видов информации применяется аддитивная регуляризация тематических моделей (ARTM). Предлагаются два способа использования двуязычного словаря: первый учитывает только сам факт связи между словами–переводами, во втором настраиваются вероятности переводов в каждой теме. Качество многоязычных моделей измеряется на задаче кросс-язычного поиска, когда запросом является документ на одном языке, а поиск производится среди документов другого языка. Показано, что комбинированный учет слов–переводов из двуязычного словаря и связанных документов улучшает качество кросс-язычного поиска по сравнению с моделями, использующими только один тип информации. Сравнение разных методов включения в модель двуязычных словарей показывает, что оценивание вероятностей переводов не только улучшает качество модели, но и позволяет находить тематический контекст для пар “слово–перевод”.

Ключевые слова: многоязычная тематическая модель, вероятностная тематическая модель, параллельная коллекция, сравнимая коллекция, двуязычный словарь, регуляризация, кросс-язычный поиск.

УДК: 004.852:519.766.4

Поступила в редакцию: 27.11.2014



© МИАН, 2024