RUS  ENG
Полная версия
ЖУРНАЛЫ // Доклады Российской академии наук. Математика, информатика, процессы управления // Архив

Докл. РАН. Матем., информ., проц. упр., 2022, том 508, страницы 106–108 (Mi danma346)

ПЕРЕДОВЫЕ ИССЛЕДОВАНИЯ В ОБЛАСТИ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА И МАШИННОГО ОБУЧЕНИЯ

Инкрементальное обучение тематических моделей для поиска трендовых тем в научных публикациях

Н. А. Герасименкоa, А. С. Чернявскийa, М. А. Никифороваa, М. Д. Никитинa, К. В. Воронцовb

a ПАО "Сбербанк", Москва, Россия
b Федеральный исследовательский центр «Информатика и управление» Российской академии наук, Москва, Россия

Аннотация: Стремительный рост числа научных публикаций, интенсивное появление новых направлений и подходов ставят перед научным сообществом задачу своевременного выявления трендов. Под трендом мы понимаем семантически однородную тему, которая характеризуется устойчивым во времени лексическим ядром и резким, зачастую экспоненциальным, ростом числа публикаций [1]. Примерами трендов в машинном обучении являются “LSTM”, “deep learning”, “word2vec”, “BERT”, “fake news detection”. Для выделения трендовых тем в потоке научных публикаций в реальном времени мы используем инкрементальные методы вероятностного тематического моделирования. При помощи подхода, основанного на ARTM, мы превзошли результаты популярных классических и нейросетевых подходов к задаче ранней детекции трендов. Для оценки качества мы вручную сформировали и сделали общедоступным датасет из 91 тренда.

Ключевые слова: инкрементальное тематическое моделирование, детектирование научных трендов, ARTM.

УДК: 004.8

Статья представлена к публикации: В. Б. Бетелин
Поступило: 28.10.2022
После доработки: 28.10.2022
Принято к публикации: 01.11.2022

DOI: 10.31857/S2686954322070086


 Англоязычная версия: Doklady Mathematics, 2022, 106:suppl. 1, S97–S98

Реферативные базы данных:


© МИАН, 2024