RUS  ENG
Полная версия
ЖУРНАЛЫ // Доклады Российской академии наук. Математика, информатика, процессы управления // Архив

Докл. РАН. Матем., информ., проц. упр., 2023, том 514, номер 2, страницы 395–416 (Mi danma483)

СПЕЦИАЛЬНЫЙ ВЫПУСК: ТЕХНОЛОГИИ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА И МАШИННОГО ОБУЧЕНИЯ

Не бывает двух одинаковых пользователей: нейросетевая кластеризация на основе последовательностей событий для генерации аудиторий

В. Жужельa, В. Грабарьa, Н. Каплоухаяa, Р. Ривера-Кастроbca, Л. Мироноваa, А. Зайцевa, Е. Бурнаевa

a Сколковский институт науки и технологий, 121205 Москва, Россия
b Центр цифровых технологий и управления, 80333 Мюнхен, Arcisstr. 21, Германия
c Choco Communications, 10967 Берлин, Hasenheide 54, Германия

Аннотация: Определение нужного пользователя для таргетинга является общей задачей для различных интернет-платформ. Хотя многие системы решают ее, они в значительной степени адаптированы к конкретным особенностям. Из-за этого на практике становится непросто применить данные задачи. Причина в том, что большинство систем предназначены для работы с миллионами активных пользователей и с личной информацией, как в случае с социальными сетями или другими сервисами с высокой виральностью. В литературе мало представлены решения, которые предназначены для обработки данных среднего размера, где единственными доступными данными являются последовательности событий пользователя. Это мотивирует нас представить Look-A-Liker (LAL) как систему глубокой кластеризации. Он использует временные точечные процессы для идентификации похожих пользователей для решения задач таргетинга. Для экспериментов мы используем данные ведущего интернет-маркетплейса гастрономического сектора. LAL обобщает не только закрытые данные. Используя последовательности событий пользователей, можно получить результаты мирового уровня, сравнимые с результатами, получаемыми с использованием новых методов, таких как трансформеры и мультимодальное обучение. Наш подход позволяет повысить оценку по метрике ROC AUC до 20% на реальных наборах данных с 0.803 до 0.959. Хотя LAL фокусируется на сотнях тысяч последовательностей, мы показываем, что его можно применить и в задачах с миллионами пользовательских последовательностей. Мы предоставляем полностью воспроизводимую реализацию с кодом и наборами данных в https://github.com/adasegroup/sequence-clusterers.

Ключевые слова: приложения, кластеризация, неконтролируемое обучение, временные точечные процессы.

Статья представлена к публикации: А. И. Аветисян
Поступило: 01.09.2023
После доработки: 15.09.2023
Принято к публикации: 18.10.2023

DOI: 10.31857/S2686954323601859


 Англоязычная версия: Doklady Mathematics, 2023, 108:suppl. 2, S511–S528

Реферативные базы данных:


© МИАН, 2024