ООО «Яндекс», 119021, Россия, г. Москва, ул. Льва Толстого, д. 16
Аннотация:
Работа представляет новый подход к задаче определения регионального фокуса веб-сайтов (геоклассификации). В отличие от традиционных подходов к многозначной классификации, когда для каждого класса (региона) обучается по отдельной классификационной модели, предлагаемый подход основан на обучении всего одной модели, которая используется для всех регионов одного типа (например, для городов). Такой подход становится возможным благодаря использованию “относительных” факторов, которые показывают, как некоторый выбранный регион соотносится с другими регионами для заданного веб-сайта. Классификатор задействует большой набор разнородных факторов, которые до этого момента не использовались вместе для геоклассификации веб-сайтов с применением машинного обучения. Оценка качества демонстрирует преимущество нашего подхода “по одной модели на тип региона” перед традиционным подходом “по одной модели на регион”. Отдельный эксперимент демонстрирует способность описываемого классификатора успешно детектировать регионы, которые отсутствовали в обучающей выборке (что невозможно при использовании традиционных подходов).