Аннотация:
В настоящее время диалоговые системы достигли отличных результатов при обработке текстовой коммуникации. Однако они еще не могут эффективно дополнять диалог визуальной информацией, что представляет собой серьезную проблему. Более того, существующие модели, включающие изображения в процесс создания диалога, фокусируются на обсуждении самого изображения. Предлагаемый нами подход представляет новый взгляд на мультимодальные диалоговые системы, которые интерпретируют изображение в контексте диалога. Тем самым мы стремимся расширить возможности существующих диалоговых систем и перевести их из одной модальности (текста) в область мультимодальности. Однако для этой задачи не хватает проверенных наборов данных на английском языке, содержащих как изображения, так и контексты диалогов. Таким образом, мы предлагаем двухэтапный подход для автоматического построения набора данных мультимодального диалога. На первом этапе мы используем сходство текста и изображения и сходство предложений, чтобы определить, какие высказывания можно заменить изображением. На втором этапе мы заменяем эти высказывания, выбирая подмножество соответствующих изображений и фильтруя их с помощью модели для ответа на визуальные вопросы (visual question answering). Мы использовали этот подход вместе с дополнительной разметкой для создания набора данных мультимодального диалога IMage Augmented (IMAD), который может служить проверенным набором данных для этой задачи. Кроме того, мы предлагаем базовую модель, обученную на этом наборе данных, которая превосходит модель, обученную на тех же данных без изображений, и BlenderBot. Библ. – 70 назв.
Ключевые слова:обработка естественных языков, глубокое обучение, машинное обучение, IMAD, диалоговый набор данных, мультимодальный набор данных, диалоговые системы, мультимодальность.