RUS  ENG
Полная версия
ЖУРНАЛЫ // Ученые записки Казанского университета. Серия Физико-математические науки // Архив

Учен. зап. Казан. ун-та. Сер. Физ.-матем. науки, 2013, том 155, книга 4, страницы 118–133 (Mi uzku1247)

Learning to predict closed questions on Stack Overflow

[Прогнозирование закрытых вопросов на Stack Overflow]

G. Lezinaab, A. Kuznetsovab, P. Braslavskicb

a Ural Federal University, Ekaterinburg, Russia
b SKB Kontur, Ekaterinburg, Russia
c Ural Federal University, Ekaterinburg, Russia

Аннотация: В статье рассматривается задача прогнозирования вероятности того, что вопрос на сервисе Stack Overflow – популярном вопросно-ответном ресурсе, посвященном разработке программного обеспечения – будет закрыт модератором. Задача, данные и метрика оценки качества были предложены в рамках открытого конкурса по машинному обучению на сервисе Kaggle. В процессе решения задачи мы использовали широкий набор признаков для классификации, в том числе признаки, описывающие личные характеристики пользователя, взаимодействие пользователей друг с другом, а также содержание вопросов, в том числе тематическое. В процессе классификации протестировано несколько алгоритмов машинного обучения. По результатам эксперимента были выявлены наиболее важные признаки: личные характеристики пользователя и тематические признаки вопроса. Наилучшие результаты были получены с помощью алгоритма, реализованного в библиотеке Vowpal Wabbit, – интерактивного обучения на основе стохастического градиентного спуска. Наилучшая полученная нами оценка попадает в топ-$5$ лучших результатов в финальной таблице, но получена после даты завершения конкурса.

Ключевые слова: социальные вопросно-ответные системы, классификация большого объема данных, классификация вопросов.

УДК: 004.852

Поступила в редакцию: 10.09.2013

Язык публикации: английский



© МИАН, 2024