Аннотация:
Несмотря на то что популярные модели генерации изображений по тексту хорошо справляются с интернациональными и общекультурными запросами, они имеют значительный пробел в знаниях относительно отдельных культур. Это связано с содержанием существующих больших наборов обучающих данных, собранных в Интернете, которые преимущественно основаны на западноевропейской или американской популярной культуре. Между тем отсутствие культурной адаптации модели может привести к некорректным результатам, снижению качества генерации, а также распространению стереотипов и оскорбительного контента. Стремясь решить эту проблему, мы анализируем понятие культурного кода и приходим к осознанию критической важности его понимания современными моделями генерации изображений – проблеме, которая до сих пор не была достаточно освещена в исследовательском сообществе. Мы предлагаем методологию сбора и обработки данных, необходимых для формирования датасета на основе культурного кода, в частности российского. Мы исследуем, как собранные данные влияют на качество генераций в национальном домене и анализируем эффективность нашего подхода на примере модели генерации изображений Kandinsky 3.1. Результаты оценки людьми демонстрируют возрастание уровня осведомленности модели о русской культуре.
Ключевые слова:
культурный код, русская культура, адаптация набора данных, генерация изображений по тексту, создание описаний, диффузионные модели, сбор данных, обработка данных.
УДК:
004.89
Поступило: 20.09.2024 Принято к публикации: 02.10.2024