Аннотация:
Модели, порождающие изображения по тексту (text-to-image), используют заданные пользователем запросы для создания изображений. Такие text-to-image модели, как DALL-E 2, Imagen, Stable Diffusion и Midjourney, могут генерировать фотореалистичные или похожие на нарисованные человеком изображения. Помимо имитации человеческого искусства, большие text-to-image модели научились создавать комбинации пикселей, напоминающие подписи на естественных языках. Например, сгенерированное изображение может содержать фигуру животного и комбинацию символов, напоминающую нам слова на естественном языке, описывающие биологическое название этого вида. Хотя слова, иногда появляющиеся на сгенерированных изображениях, могут быть читабельными для человека, они не укоренены в словарях естественного языка и не имеют смысла для нелингвистов. В то же время мы обнаруживаем, что семиотический и лингвистический анализ так называемого скрытого словаря моделей преобразования текста в изображение внесет вклад в области объяснимого искусственного интеллекта и инженерии запросов. Результаты этого анализа можно использовать для снижения рисков применения таких моделей при решении реальных задач и для обнаружения дипфейков. Предлагаемое исследование является одной из первых попыток анализа text-to-image моделей с точки зрения семиотики и лингвистики. Наш подход предполагает инженерию запросов, создание изображений и сравнительный анализ. Исходный код, сгенерированные изображения и запросы доступны по адресу https://github.com/vifirsanova/text-to-image-explainable Библ. – 34 назв.