RUS  ENG
Полная версия
ЖУРНАЛЫ // Доклады Российской академии наук. Математика, информатика, процессы управления // Архив

Докл. РАН. Матем., информ., проц. упр., 2024, том 520, номер 2, страницы 337–351 (Mi danma611)

СПЕЦИАЛЬНЫЙ ВЫПУСК: ТЕХНОЛОГИИ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА И МАШИННОГО ОБУЧЕНИЯ

Деформации на основе неявных нейронных представлений генеративных состязательных нейросетей для редактирования изображений

С. Игнатьевa, В. Егиазарянb, Р. Рахимовc, Е. Бурнаевade

a Сколковский институт науки и технологий, Москва, Россия
b Yandex Research, Москва, Россия
c Центр робототехники Сбера, Москва, Россия
d AIRI, Москва, Россия
e Математический институт им. В.А. Стеклова Российской академии наук, Москва, Россия

Аннотация: В настоящей работе предложена новая генеративная модель изображений с возможностью независимого моделирования формы изображения и его внешнего вида (текстур) с использованием дифференцируемых деформаций. Для этого мы предлагаем использовать неявные нейронные представления, с помощью которых моделируются поля деформаций, и показываем, что модели изображений, основанные на значениях этих представлений в соответствующих координатах, обладают необходимой априорной структурой. В отличие от предыдущих подходов на основе моделирования деформаций, которые, как правило, моделируют только локальные и мелкомасштабные смещения, наш метод способен выучивать сложные деформации, не ограничиваясь только обратимыми отображениями. Мы изучаем сходимость генеративной модели на основе моделирования деформаций и показываем, что высокочастотная природа текстур приводит к неравномерному обучению, медленной сходимости и получению неэффективных моделей. Чтобы справиться с этой проблемой, мы предлагаем использовать обратимые размытия, которые сглаживают градиенты и приводят к улучшению результатов. Также, для дальнейшего улучшения сходимости, мы совместно обучаем модуль деформаций как простой генератор генеративной состязательной нейросети, что позволяет направлять процесс обучения в режиме самодистилляции. Предложенная в работе архитектура модели и подход к ее обучению демонстрируют качественные результаты на наборе данных LSUN churches. Мы также приводим примеры применений предложенной модели, такие, как композиционное редактирование текстур, контролируемое редактирование деформаций и детекция ключевых точек.

Ключевые слова: генеративные состязательные сети, неявные нейронные представления, деформация.

УДК: 004.8

Поступило: 27.09.2024
Принято к публикации: 02.10.2024

DOI: 10.31857/S268695432470070X


 Англоязычная версия: Doklady Mathematics, 2024, 110:suppl. 1, S299–S311

Реферативные базы данных:


© МИАН, 2025