Аннотация:
Статья посвящена задаче восстановления значения атрибута “возраст” пользователя в социальных сетях посредством применения машинного обучения для комбинирования, предложенных в данной статье методов. Рассмотрены методы, основанные на анализе информации об образовательных учреждениях, подписках на группы и об образовании друзей, извлекаемой из профиля в социальной сети. Все эти методы по отдельности могут быть использованы в отношении выборок пользователей с ограниченным набором характеристик. Чтобы увеличить долю пользователей, у которых может быть восстановлено значение атрибута “возраст”, была построена модель классификации для выбора наилучшего метода восстановления возраста для каждого пользователя. Были протестированы еще два подхода к комбинированию методов: ранжированием и усреднением оценок. В результате первый подход оказался наилучшим на тестовой выборке. Теоретическая значимость работы состоит в предложении подхода к комбинированию методов восстановления возраста, который позволяет повысить применимость и точность идентификации возраста пользователя. Полученные результаты имеют перспективу применения во многих областях, связанных с анализом профилей пользователей, при изучении социальных сетей.
Ключевые слова:анализ социальных сетей, восстановление атрибутов, социоинженерные атаки, социокомпьютинг, машинное обучение.