Аннотация:
Социальные сети все чаще выступают не только как средство
досуга или развлечения, но и как канал распространения информации,
заменяя собой традиционные СМИ. В данной статье представлена
модель масштабируемой системы выделения текстовых трендов,
реализованная в социальной сети ОК. Акторы (пользователи
и коммьюнити) совместно конструируют широкую новостную повестку,
которая обладает определенной спецификой:
текст написан пользователями, а не
профессиональными журналистами, что усложняет его обработку;
пользователи социальной сети генерируют
текст на разных языках, что в классическом подходе к анализу
медиапространства требует привлечения большого количества
высокооплачиваемых специалистов;
учитывая характер современного
информационного пространства и время отклика социальной сети,
необходима система, способная работать в режиме реального
времени;
социальные сети зачастую используются
спамерами как площадка для продвижения и навязчивой рекламы, что
требует привлечения дополнительных средств для фильтрации
подобного контента.
Использование традиционных средств
медиаанализа представляется крайне затруднительным, что
естественным образом формирует запрос на разработку и внедрение
программных средств детектирования и анализа текстовых трендов.
В научной литературе при решении подобных задач предлагается
использование одного из двух подходов: тематического моделирования
с последующим анализом эволюции выделенных тем или построения
дистрибутивных моделей, основанных на отслеживании частотных
характеристик термов в корпусе. В статье приведен анализ
существующих научных работ, основанных на обоих подходах с учетом
специфики, предполагающей применение данной модели в рамках
социальной сети. В результате было принято решение использовать
дистрибутивную модель в качестве основы дальнейшей системы. OK —
одна из крупнейших социальных сетей на территории России и стран
СНГ, акторы которой генерируют более 100M символов текста в день.
Даже базовая обработка подобного потока информации является
тяжелой технической задачей, так что при разработке необходимо
прибегать к методам анализа «больших данных». Система
детектирования трендов состоит из трех компонент:
пакетный компонент, реализованный на
основе фреймворка Apache Spark;
потоковый компонент, реализованный на
основе Apache Samza;
mini-batch-компонент, реализованный на
основе Spark Streaming.
В статье подробно описаны архитектура
и технические особенности каждого из компонентов, приведены
результаты работы системы, а также направления для дальнейшего
исследования и развития. Библиогр. 13 назв. Ил. 7. Табл. 1.
Ключевые слова:анализ естественного языка, выделение трендов, большие данные.
УДК:519.688
Поступила:5 марта 2017 г. Принята к печати: 8 июня 2017 г.