V. Firsanova, “What do text-to-image models know about the languages of the world?”, Зап. научн. сем. ПОМИ, 2023, том 529,страницы 157

What do text-to-image models know about the languages of the world?

[Что модели для порождения изображений знают о языках мира?]

V. Firsanova

St. Petersburg State University, St. Petersburg, Russia

Аннотация: Модели, порождающие изображения по тексту (text-to-image), используют заданные пользователем запросы для создания изображений. Такие text-to-image модели, как DALL-E 2, Imagen, Stable Diffusion и Midjourney, могут генерировать фотореалистичные или похожие на нарисованные человеком изображения. Помимо имитации человеческого искусства, большие text-to-image модели научились создавать комбинации пикселей, напоминающие подписи на естественных языках. Например, сгенерированное изображение может содержать фигуру животного и комбинацию символов, напоминающую нам слова на естественном языке, описывающие биологическое название этого вида. Хотя слова, иногда появляющиеся на сгенерированных изображениях, могут быть читабельными для человека, они не укоренены в словарях естественного языка и не имеют смысла для нелингвистов. В то же время мы обнаруживаем, что семиотический и лингвистический анализ так называемого скрытого словаря моделей преобразования текста в изображение внесет вклад в области объяснимого искусственного интеллекта и инженерии запросов. Результаты этого анализа можно использовать для снижения рисков применения таких моделей при решении реальных задач и для обнаружения дипфейков. Предлагаемое исследование является одной из первых попыток анализа text-to-image моделей с точки зрения семиотики и лингвистики. Наш подход предполагает инженерию запросов, создание изображений и сравнительный анализ. Исходный код, сгенерированные изображения и запросы доступны по адресу https://github.com/vifirsanova/text-to-image-explainable Библ. – 34 назв.

Ключевые слова: объяснимый искусственный интеллект, text-to-image модели, диффузионные модели.

УДК: 81.322.2

Поступило: 06.09.2023

Язык публикации: английский