aКомпания НАУМЕН bНациональный электронно-информационный консорциум (NEICON) cРоссийская государственная библиотека
Аннотация:
Авторами предложена новая методика для парного сравнения коллекций научных статей с помощью тематической модели. Разработанная методика получила название сравнительного тематического анализа (СТА). Сравнительный тематический анализ позволяет получать не только количественную оценку похожести коллекций, но и структурные различия сравниваемых коллекций как в количественном виде, так и с помощью средств визуализации, разработанных авторами. В данном исследовании проведено сравнение существующих подходов к тематическому моделирования применительно к рассматриваемой задаче сравнения коллекций научных статей. Рассмотрены вероятностные и генеративные тематические модели. Проведен анализ требований к текстовым коллекциям для корректного применения СТА. Методика СТА показала высокую эффективность на выделении структурных различий близких по тематике коллекций. Авторами разработана интегральная метрика, позволяющая сравнивать коллекции между собой: коэффициент контентной аутентичности. По результатам цифрового эксперимента наиболее информативной показала себя тематическая модель с аддитивной регуляризацией (ARTM, additive regularization of topic model).
Ключевые слова:сравнительный тематический анализ, анализ текстов, метрики тематической модели.