Аннотация:
Рекламная индустрия использует несколько модальностей контента для доставки подразумеваемых сообщений: изображения, видео, текст, музыка, и все это вместе взятое. “Декодирование” сообщения, подразумеваемого в мультимодальном контенте, часто требует анализа как текстовых, так и визуальных его компонентов. Мы изучаем задачи распознавания мультимодального символизма, обнаружения тем и классификации тональности. Руководствуясь разницей в частях сообщения, передаваемых разными модальностями в рекламных объявлениях, мы обучаем отдельные модели для изображений и текстов и значительно улучшаем результаты, смешивая прогнозы на основе изображений и текста (с автоматически распознанным текстом), что дает экспериментальное подтверждение нашего подхода. Библ. – 69 назв.