RUS  ENG
Полная версия
ЖУРНАЛЫ // Вычислительные методы и программирование // Архив

Выч. мет. программирование, 2015, том 16, выпуск 2, страницы 215–234 (Mi vmp534)

Эта публикация цитируется в 1 статье

Тематические модели: добавление биграмм и учет сходства между униграммами и биграммами

М. А. Нокельa, Н. В. Лукашевичb

a Московский государственный университет имени М. В. Ломоносова, факультет вычислительной математики и кибернетики
b Научно-исследовательский вычислительный центр Московского государственного университета имени М. В. Ломоносова

Аннотация: Представлены результаты экспериментов по добавлению биграмм в тематические модели и учету сходства между ними и униграммами. Предложен новый алгоритм PLSA-SIM, являющийся модификацией алгоритма построения тематических моделей PLSA (Probabilistic Latent Semantic Analysis). Предложенный алгоритм позволяет добавлять биграммы и учитывать сходство между ними и униграммными компонентами. Исследована возможность применения ассоциативных мер для выбора и последующего включения биграмм в тематические модели. В качестве текстовых коллекций взяты русскоязычная подборка статей из электронных банковских журналов, английские части корпусов параллельных текстов Europarl и JRC-Acquiz и англоязычный архив исследовательских работ по компьютерной лингвистике ACL Anthology. Выполненные эксперименты показывают, что существует подгруппа тестируемых мер, упорядочивающих биграммы таким образом, что при последующем их добавлении в предложенный алгоритм PLSA-SIM качество получающихся тематических моделей значительно повышается. Предложен новый итеративный алгоритм PLSA-ITER без учителя, позволяющий добавлять наиболее подходящие биграммы. Эксперименты показывают дальнейшее улучшение качества тематических моделей по сравнению с исходным алгоритмом PLSA.

Ключевые слова: тематические модели, ассоциативные меры, биграммы, согласованность тем, перплексия.

УДК: 004.852

Поступила в редакцию: 12.03.2015



© МИАН, 2024