RUS  ENG
Полная версия
ЖУРНАЛЫ // Компьютерная оптика // Архив

Компьютерная оптика, 2018, том 42, выпуск 5, страницы 921–927 (Mi co577)

Эта публикация цитируется в 22 статьях

ЧИСЛЕННЫЕ МЕТОДЫ И АНАЛИЗ ДАННЫХ

Кластеризация медиа-контента из социальных сетей с использованием технологии BigData

И. А. Рыцаревa, Д. В. Киршba, А. В. Куприяновba

a Самарский национальный исследовательский университет имени академика С.П. Королева, 443086, Россия, г. Самара, Московское шоссе, д. 34
b ИСОИ РАН – филиал ФНИЦ «Кристаллография и фотоника» РАН, 443001, Россия, г. Самара, ул. Молодогвардейская, д. 151

Аннотация: Статья посвящена одной из ключевых проблем, возникающих при анализе социальных сетей, – проблеме классификации учётных записей на основе медиаконтента, загружаемого пользователями. Основными трудностями на пути решения проблемы являются гетерогенность контента (как по формату, так и по содержанию) и колоссальные объёмы анализируемой информации, что приводит к чрезмерной вычислительной сложности её обработки, а зачастую и к полной неэффективности традиционных методов анализа. В статье мы обсуждаем подход к кластеризации медиаконтента из социальных сетей на основе текстового аннотирования с использованием технологии BigData – современного и эффективного инструмента, позволяющего решить проблемы обработки данных большого объёма. Для проведения вычислительных экспериментов была собрана большая выборка разнородных изображений (фотографии, картины, поздравительные открытки и т. д.) из реальных профилей пользователей социальной сети Twitter. Проведённое исследование подтвердило высокое качество кластеризации медиаконтента, в среднем, значение ошибки составило порядка 5 %.

Ключевые слова: кластеризация, технология BigData, текстовое аннотирование, социальные сети, анализ медиа-контента, алгоритм k-means, GoogLeNet.

Поступила в редакцию: 24.10.2018
Принята в печать: 30.10.2018

DOI: 10.18287/2412-6179-2018-42-5-921-927



© МИАН, 2024