RUS  ENG
Полная версия
ЖУРНАЛЫ // Вестник Санкт-Петербургского университета. Серия 10. Прикладная математика. Информатика. Процессы управления // Архив

Вестн. С.-Петербург. ун-та. Сер. 10. Прикл. матем. Информ. Проц. упр., 2018, том 14, выпуск 3, страницы 243–251 (Mi vspui373)

Информатика

Modification biterm topic model input feature for detecting topic in thematic virtual museums

[Модификация метода тематического моделирования BTM для обнаружения тем в тематических виртуальных музеях]

S. Anggaia, I. S. Blekanov, S. L. Sergeev

a St. Petersburg State University, 7–9, Universitetskaya nab., St. Petersburg, 199034, Russian Federation

Аннотация: В статье описывается разработанный авторами метод обнаружения тем в коротких текстовых документах из виртуальной музейной коллекции. Данный метод получил название Feature BTM, поскольку основывается на модификации третьего шага генеративного процесса известной тематической модели BTM. Был поставлен эксперимент по оценке качества, который показал преимущество в эффективности детектирования тем модифицированной моделью Feature BTM перед классической моделью BTM. Была описана технология тематической кластеризации документов, необходимая для построения тематических виртуальных музеев. Проведена оценка производительности, показывающая при незначительной потери скорости (менее 30 с) большую эффективность применения Feature BTM для выполнения кластеризации виртуальной музейной коллекции, чем использования классической модели BTM. Полученный авторами метод позволяет решить проблемы зашумленности и смещения темы при их выявлении, которые имеются в модели BTM.

Ключевые слова: тематическая модель, битерм, короткие тексты, модель BTM, кластеризация, тематический виртуальный музей.

УДК: 025.4.03:[004.4:351.852]

MSC: 68T50

Поступила: 10 марта 2018 г.
Принята к печати: 14 июня 2018 г.

Язык публикации: английский

DOI: 10.21638/11701/spbu10.2018.305



Реферативные базы данных:


© МИАН, 2024