RUS  ENG
Полная версия
СЕМИНАРЫ

Коллоквиум Факультета компьютерных наук НИУ ВШЭ
5 октября 2017 г. 18:10, г. Москва, Покровский бульвар 11


Многокритериальный тематический анализ текстовых коллекций

Константин Воронцовabc

a Компания «Яндекс»
b Московский физико-технический институт
c Национальный исследовательский университет "Высшая школа экономики", г. Москва


https://www.youtube.com/watch?v=eJzNAhsbQNI

Аннотация: Тематическое моделирование — это область статистического анализа текстов, активно развивающаяся последние 15 лет. Тематическая модель коллекции текстовых документов определяет, к каким темам относится каждый документ и какие слова образуют каждую тему. Построение тематической модели сводится к решению некорректно поставленной задачи матричного разложения. Для доопределения решения используются дополнительные критерии-регуляризаторы. Тематическое моделирование отличается огромным разнообразием регуляризаторов, с помощью которых можно строить тематические иерархии, учитывать лингвистические ограничения, вовлекать нетекстовые данные о времени, авторах, пользователях, ссылках, взаимосвязях. В лекции будет рассказано, как все эти ограничения формализуются на языке регуляризации, как их можно комбинировать друг с другом для построения моделей с заданными свойствами и как теория аддитивной регуляризации приводит к модульной технологии тематического моделирования.


© МИАН, 2024