А. Г. Гомзин, С. Д. Кузнецов, “Методы построения социо-демографических профилей пользователей сети Интернет”, Труды ИСП РАН, 2015, том 27, выпуск 4,страницы 129

Эта публикация цитируется в 3 статьях

Методы построения социо-демографических профилей пользователей сети Интернет

А. Г. Гомзин^ab, С. Д. Кузнецов^acb

^a Московский государственный университет имени М.В. Ломоносова
^b Институт системного программирования РАН
^c Московский физико-технический институт (государственный университет)

Аннотация: Работа посвящена методам построения социально-демографического профиля пользователей Интернета. Примерами демографических атрибутов являются пол, возраст, политические и религиозные взгляды, район проживания, состояние отношений с другими людьми. Эта работа представляет собой обзор методов, которые обнаруживают демографические атрибуты из профиля пользователя и сообщений. Большинство известных работ посвящены выявлению пола. Возраст, политические взгляды и области также интересуют исследователей.
Самыми популярными источниками данных для извлечения демографических атрибутов являются социальные сети, такие как Facebook, Twitter, Youtube.
Большинство решений основано на машинном обучении с учителем. Машинное обучение позволяет найти целевые значения (демографические атрибуты) в зависимости от входных данных и использовать их, чтобы предсказать значение целевого атрибута для новых данных. в работе анализируются следующие шаги решения задачи: сбор данных, извлечение признаков, отбор информативных признаков, методы обучения классификаторов, оценка качества.
Исследования используют различные виды данных, чтобы предсказать демографические атрибуты. Самым популярным источником данных является текст. Последовательности слов (п-граммы), части речи, смайлики, особенности относящиеся к конкретным ресурсам (например, @ и # в Twitter) извлекаются и используются в качестве входных данных для алгоритмов машинного обучения. Социальные графы также используются в качестве исходных данных. Сообщества пользователей, которые автоматически извлекаются из социального графа пользователем в качестве признаков для прогнозирования атрибутов. Текстовые данные дает много возможностей. Алгоритмы выбора признаков необходимы для снижения признакового пространства.
В статье исследуются функции выбора, классификации и регрессии алгоритмы, показатели оценки.

Ключевые слова: демографические атрибуты, демографические характеристики, социальные сети, обработка текстов на естественном языке, машинное обучение.

DOI: 10.15514/ISPRAS-2015-27(4)-7