RUS  ENG
Полная версия
ЖУРНАЛЫ // Информатика и её применения // Архив

Информ. и её примен., 2020, том 14, выпуск 3, страницы 129–135 (Mi ia689)

Эта публикация цитируется в 1 статье

Использование тематических моделей для парного сравнения коллекций научных статей

Ф. В. Красновa, А. В. Диментовb, М. Е. Шварцманbc

a Компания НАУМЕН
b Национальный электронно-информационный консорциум (NEICON)
c Российская государственная библиотека

Аннотация: Авторами предложена новая методика для парного сравнения коллекций научных статей с помощью тематической модели. Разработанная методика получила название сравнительного тематического анализа (СТА). Сравнительный тематический анализ позволяет получать не только количественную оценку похожести коллекций, но и структурные различия сравниваемых коллекций как в количественном виде, так и с помощью средств визуализации, разработанных авторами. В данном исследовании проведено сравнение существующих подходов к тематическому моделирования применительно к рассматриваемой задаче сравнения коллекций научных статей. Рассмотрены вероятностные и генеративные тематические модели. Проведен анализ требований к текстовым коллекциям для корректного применения СТА. Методика СТА показала высокую эффективность на выделении структурных различий близких по тематике коллекций. Авторами разработана интегральная метрика, позволяющая сравнивать коллекции между собой: коэффициент контентной аутентичности. По результатам цифрового эксперимента наиболее информативной показала себя тематическая модель с аддитивной регуляризацией (ARTM, additive regularization of topic model).

Ключевые слова: сравнительный тематический анализ, анализ текстов, метрики тематической модели.

Поступила в редакцию: 27.06.2019

DOI: 10.14357/19922264200318



© МИАН, 2024