|
СЕМИНАРЫ |
Коллоквиум Факультета компьютерных наук НИУ ВШЭ
|
|||
|
Многокритериальный тематический анализ текстовых коллекций Константин Воронцовabc a Компания «Яндекс» b Московский физико-технический институт c Национальный исследовательский университет "Высшая школа экономики", г. Москва |
|||
Аннотация: Тематическое моделирование — это область статистического анализа текстов, активно развивающаяся последние 15 лет. Тематическая модель коллекции текстовых документов определяет, к каким темам относится каждый документ и какие слова образуют каждую тему. Построение тематической модели сводится к решению некорректно поставленной задачи матричного разложения. Для доопределения решения используются дополнительные критерии-регуляризаторы. Тематическое моделирование отличается огромным разнообразием регуляризаторов, с помощью которых можно строить тематические иерархии, учитывать лингвистические ограничения, вовлекать нетекстовые данные о времени, авторах, пользователях, ссылках, взаимосвязях. В лекции будет рассказано, как все эти ограничения формализуются на языке регуляризации, как их можно комбинировать друг с другом для построения моделей с заданными свойствами и как теория аддитивной регуляризации приводит к модульной технологии тематического моделирования. |