RUS  ENG
Полная версия
ЖУРНАЛЫ // Труды института системного программирования РАН // Архив

Труды ИСП РАН, 2020, том 32, выпуск 1, страницы 137–152 (Mi tisp490)

Эта публикация цитируется в 2 статьях

Эффективные реализации алгоритмов тематического моделирования

М. А. Апишев

Московский государственный университет имени М.В. Ломоносова

Аннотация: Представлен обзор эффективных алгоритмов вероятностного тематического моделирования больших текстовых коллекций. Рассматриваются алгоритмы обучения моделей латентного размещения Дирихле (LDA) и аддитивно регуляризованных тематических моделей (ARTM) для многопроцессорных систем. Предложена систематизация технических приёмов для организации параллельных вычислений, распределённого хранения данных, потоковой обработки, уменьшения потребления оперативной памяти, повышения отказоустойчивости. Проведён сравнительный анализ доступных реализаций.

Ключевые слова: параллельные алгоритмы, распределённое хранение данных, обработка потоковых данных, отказоустойчивость, тематическое моделирование, EM-алгоритм, латентное размещение Дирихле, аддитивная регуляризация тематических моделей.

DOI: 10.15514/ISPRAS-2020-32(1)-8



© МИАН, 2024