Аннотация:
Представлен обзор эффективных алгоритмов вероятностного тематического моделирования больших текстовых коллекций. Рассматриваются алгоритмы обучения моделей латентного размещения Дирихле (LDA) и аддитивно регуляризованных тематических моделей (ARTM) для многопроцессорных систем. Предложена систематизация технических приёмов для организации параллельных вычислений, распределённого хранения данных, потоковой обработки, уменьшения потребления оперативной памяти, повышения отказоустойчивости. Проведён сравнительный анализ доступных реализаций.
Ключевые слова:параллельные алгоритмы, распределённое хранение данных, обработка потоковых данных, отказоустойчивость, тематическое моделирование, EM-алгоритм, латентное размещение Дирихле, аддитивная регуляризация тематических моделей.