М. А. Апишев, “Эффективные реализации алгоритмов тематического моделирования”, Труды ИСП РАН, 2020, том 32, выпуск 1,страницы 137

Эта публикация цитируется в 2 статьях

Эффективные реализации алгоритмов тематического моделирования

М. А. Апишев

Московский государственный университет имени М.В. Ломоносова

Аннотация: Представлен обзор эффективных алгоритмов вероятностного тематического моделирования больших текстовых коллекций. Рассматриваются алгоритмы обучения моделей латентного размещения Дирихле (LDA) и аддитивно регуляризованных тематических моделей (ARTM) для многопроцессорных систем. Предложена систематизация технических приёмов для организации параллельных вычислений, распределённого хранения данных, потоковой обработки, уменьшения потребления оперативной памяти, повышения отказоустойчивости. Проведён сравнительный анализ доступных реализаций.

Ключевые слова: параллельные алгоритмы, распределённое хранение данных, обработка потоковых данных, отказоустойчивость, тематическое моделирование, EM-алгоритм, латентное размещение Дирихле, аддитивная регуляризация тематических моделей.

DOI: 10.15514/ISPRAS-2020-32(1)-8