RUS  ENG
Полная версия
ЖУРНАЛЫ // Компьютерные исследования и моделирование // Архив

Компьютерные исследования и моделирование, 2012, том 4, выпуск 4, страницы 693–706 (Mi crm522)

Эта публикация цитируется в 14 статьях

МАТЕМАТИЧЕСКИЕ ОСНОВЫ И ЧИСЛЕННЫЕ МЕТОДЫ МОДЕЛИРОВАНИЯ

Регуляризация, робастность и разреженность вероятностных тематических моделей

К. В. Воронцовa, А. А. Потапенкоb

a Лаборатория «РУКОНТ-ФизТех» ФУПМ МФТИ, Россия, 141700, г. Долгопрудный, Институтский переулок, д. 9
b ВМК МГУ, Россия, 119991 ГСП-1 г. Москва, Ленинские горы, МГУ имени М. В. Ломоносова, факультет ВМК

Аннотация: Предлагается обобщенное семейство вероятностных тематических моделей коллекций текстовых документов, в котором эвристики регуляризации, сэмплирования, частого обновления параметров, робастности относительно шума и фона могут включаться независимо друг от друга в любых сочетаниях, порождая как известные модели PLSA, LDA, CVB0, SWB, так и новые. Показано, что робастная тематическая модель на основе PLSA, разделяющая термины на тематические, шумовые и фоновые, не нуждается в регуляризации и обеспечивает разреженность искомых дискретных распределений тем в документах и терминов в темах.

Ключевые слова: компьютерный анализ текстов, тематическое моделирование, вероятностный латентный семантический анализ, EM-алгоритм, латентное размещение Дирихле, сэмплирование Гиббса, байесовская регуляризация, перплексия, робастность.

УДК: 004.852

Поступила в редакцию: 06.09.2012

DOI: 10.20537/2076-7633-2012-4-4-693-706



© МИАН, 2024