Аннотация:
Работа посвящена построению иерархической тематической модели тезисов крупной конференции. Используется разделяющая вероятностная модель для кластеризации тезисов на каждом уровне иерархии. Предложены адаптированные вероятностные модели, учитывающие сбалансированность структуры конференции. В адаптированных моделях снижено влияние мощности кластеров на построение тематической модели. Для построения тематической модели используется алгоритм кластеризации с частичным обучением. Строится плоская модель на каждом уровне иерархии. На основании плоских моделей строится иерархическая тематическая модель конференции. Для построения тематической модели тезисов конференции используется дивизимный иерархический алгоритм. Работа алгоритмов проиллюстрирована на коллекциях тезисов конференции EURO и сайтов индустриального сектора. Разделяющая
вероятностная модель сравнивается с адаптированными моделями и иерархической моделью. Для оценки качества тематической модели используются модели, построенные экспертами.