Аннотация:
В статье рассматривается задача прогнозирования вероятности того, что вопрос на сервисе Stack Overflow – популярном вопросно-ответном ресурсе, посвященном разработке программного обеспечения – будет закрыт модератором. Задача, данные и метрика оценки качества были предложены в рамках открытого конкурса по машинному обучению на сервисе Kaggle. В процессе решения задачи мы использовали широкий набор признаков для классификации, в том числе признаки, описывающие личные характеристики пользователя, взаимодействие пользователей друг с другом, а также содержание вопросов, в том числе тематическое. В процессе классификации протестировано несколько алгоритмов машинного обучения. По результатам эксперимента были выявлены наиболее важные признаки: личные характеристики пользователя и тематические признаки вопроса. Наилучшие результаты были получены с помощью алгоритма, реализованного в библиотеке Vowpal Wabbit, – интерактивного обучения на основе стохастического градиентного спуска. Наилучшая полученная нами оценка попадает в топ-$5$ лучших результатов в финальной таблице, но получена после даты завершения конкурса.
Ключевые слова:социальные вопросно-ответные системы, классификация большого объема данных, классификация вопросов.