RUS  ENG
Полная версия
ЖУРНАЛЫ // Записки научных семинаров ПОМИ // Архив

Зап. научн. сем. ПОМИ, 2023, том 529, страницы 176–196 (Mi znsl7426)

Blending of predictions boosts understanding for multimodal advertisements

[Объединение предсказаний улучшает понимание мультимодального рекламного контента]

A. Alekseeva, A. Savchenkob, E. Tutubalinacd, E. Myasnikove, S. Nikolenkoa

a Steklov Institute of Mathematics at St. Petersburg, Russia
b Sber AI Lab, Russia
c Sber AI, Russia
d Kazan Federal University, Russia
e Samara National Research University, Russia

Аннотация: Рекламная индустрия использует несколько модальностей контента для доставки подразумеваемых сообщений: изображения, видео, текст, музыка, и все это вместе взятое. “Декодирование” сообщения, подразумеваемого в мультимодальном контенте, часто требует анализа как текстовых, так и визуальных его компонентов. Мы изучаем задачи распознавания мультимодального символизма, обнаружения тем и классификации тональности. Руководствуясь разницей в частях сообщения, передаваемых разными модальностями в рекламных объявлениях, мы обучаем отдельные модели для изображений и текстов и значительно улучшаем результаты, смешивая прогнозы на основе изображений и текста (с автоматически распознанным текстом), что дает экспериментальное подтверждение нашего подхода. Библ. – 69 назв.

Ключевые слова: мультимодальное машинное обучение, понимание рекламного контента, распознавание тематики, тональность текста, классификация тональности.

УДК: 004.852

Поступило: 12.10.2023

Язык публикации: английский



© МИАН, 2024