RUS  ENG
Полная версия
ЖУРНАЛЫ // Записки научных семинаров ПОМИ // Архив

Зап. научн. сем. ПОМИ, 2023, том 530, страницы 24–37 (Mi znsl7430)

Vector graphics generation with LLMs: approaches and models

[Порождение векторной графики большими языковыми моделями: подходы и модели]

B. Timofeenkoa, V. Efimovaa, A. Filchenkovb

a ITMO University
b GO AI LAB

Аннотация: Задача создания векторной графики с помощью искусственного интеллекта недостаточно исследована. В последнее время большие языковые модели (large language models, LLM) успешно применяются для решения многих задач. Например, современные LLM достигают отличного качества в задачах порождения кода и открыты для публичного доступа. В этом исследовании сравниваются подходы к созданию векторной графики с помощью LLM, а именно ChatGPT (GPT-3.5) и GPT-4. GPT-4 имеет заметные улучшения по сравнению с ChatGPT. Обе модели легко генерируют геометрические примитивы, но с трудом справляются даже с простыми объектами. Результаты, полученные с помощью GPT-4, визуально напоминают запросы, но являются неточными. GPT-4 умеет корректировать вывод по инструкции. Кроме того, обеим моделям сложно распознать объект по изображению SVG. Обе модели правильно распознают только примитивные объекты. Библ. – 20 назв.

Ключевые слова: большие языковые модели, векторная графика, порождающие модели, порождение изображений, синтез изображений по тексту.

УДК: 004.932

Поступило: 06.09.2023

Язык публикации: английский



© МИАН, 2024