Аннотация:
Стремительный рост числа научных публикаций, интенсивное появление новых направлений и подходов ставят перед научным сообществом задачу своевременного выявления трендов. Под трендом мы понимаем семантически однородную тему, которая характеризуется устойчивым во времени лексическим ядром и резким, зачастую экспоненциальным, ростом числа публикаций [1]. Примерами трендов в машинном обучении являются “LSTM”, “deep learning”, “word2vec”, “BERT”, “fake news detection”. Для выделения трендовых тем в потоке научных публикаций в реальном времени мы используем инкрементальные методы вероятностного тематического моделирования. При помощи подхода, основанного на ARTM, мы превзошли результаты популярных классических и нейросетевых подходов к задаче ранней детекции трендов. Для оценки качества мы вручную сформировали и сделали общедоступным датасет из 91 тренда.
Ключевые слова:инкрементальное тематическое моделирование, детектирование научных трендов, ARTM.
УДК:
004.8
Статья представлена к публикации:В. Б. Бетелин Поступило: 28.10.2022 После доработки: 28.10.2022 Принято к публикации: 01.11.2022