A. Alekseev, A. Savchenko, E. Tutubalina, E. Myasnikov, S. Nikolenko, “Blending of predictions boosts understanding for multimodal advertisements”, Зап. научн. сем. ПОМИ, 2023, том 529,страницы 176

Blending of predictions boosts understanding for multimodal advertisements

[Объединение предсказаний улучшает понимание мультимодального рекламного контента]

A. Alekseev^a, A. Savchenko^b, E. Tutubalina^cd, E. Myasnikov^e, S. Nikolenko^a

^a Steklov Institute of Mathematics at St. Petersburg, Russia
^b Sber AI Lab, Russia
^c Sber AI, Russia
^d Kazan Federal University, Russia
^e Samara National Research University, Russia

Аннотация: Рекламная индустрия использует несколько модальностей контента для доставки подразумеваемых сообщений: изображения, видео, текст, музыка, и все это вместе взятое. “Декодирование” сообщения, подразумеваемого в мультимодальном контенте, часто требует анализа как текстовых, так и визуальных его компонентов. Мы изучаем задачи распознавания мультимодального символизма, обнаружения тем и классификации тональности. Руководствуясь разницей в частях сообщения, передаваемых разными модальностями в рекламных объявлениях, мы обучаем отдельные модели для изображений и текстов и значительно улучшаем результаты, смешивая прогнозы на основе изображений и текста (с автоматически распознанным текстом), что дает экспериментальное подтверждение нашего подхода. Библ. – 69 назв.

Ключевые слова: мультимодальное машинное обучение, понимание рекламного контента, распознавание тематики, тональность текста, классификация тональности.

УДК: 004.852

Поступило: 12.10.2023

Язык публикации: английский