RUS  ENG
Полная версия
ЖУРНАЛЫ // Интеллектуальные системы. Теория и приложения // Архив

Интеллектуальные системы. Теория и приложения, 2019, том 23, выпуск 4, страницы 7–23 (Mi ista246)

Эта публикация цитируется в 1 статье

Часть 1. Общие проблемы теории интеллектуальных систем

Построение полного набора тем вероятностных тематических моделей

А. В. Сухарева, К. В. Воронцов


Аннотация: Интерпретируемость, линейное увеличение сложности с ростом данных, масштабируемость сделали тематическое моделирование одним из наиболее популярных инструментов статистического анализа текстов. Однако есть и ряд недостатков, вызванных зависимостью решения от инициализации. Известно, что построение тематической модели сводится к решению некорректно поставленной задачи неотрицательного матричного разложения. Множество её решений в общем случае бесконечно. Всякий раз модель находит локальный экстремум. Многократное обучение модели по одной и той же коллекции может приводить к обнаружению всё новых и новых тем. На практике часто требуется определить все темы корпуса. Для решения этой задачи в статье предложен и исследован новый алгоритм нахождения полного набора тем, который основан на построении выпуклой оболочки. Экспериментально показано, что за конечное число моделей можно построить базис тем. Правдоподобие базиса тем выше, чем одной модели с аналогичным числом тем. Сравнение базисов моделей LDA (latent Dirichlet allocation) и ARTM (additive regularization for topic modeling) позволяет сделать вывод, что темы наборов совпадают с высокой точностью.

Ключевые слова: вероятностное тематическое моделирование, устойчивость тематических моделей, полный набор тем тематических моделей, латентное размещение Дирихле, регуляризация.



© МИАН, 2025