RUS  ENG
Полная версия
ЖУРНАЛЫ // Доклады Российской академии наук. Математика, информатика, процессы управления // Архив

Докл. РАН. Матем., информ., проц. упр., 2024, том 520, номер 2, страницы 260–266 (Mi danma605)

СПЕЦИАЛЬНЫЙ ВЫПУСК: ТЕХНОЛОГИИ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА И МАШИННОГО ОБУЧЕНИЯ

MDS-ViTNet: улучшение предсказания карты внимания при слежении за взглядом с помощью модели визуального трансформера

И. Полежаевab, И. Гончаренкоbc, Н. Юринаc

a Яндекс, Москва, Россия
b Московский физико-технический институт, Долгопрудный, Россия
c СБЕР, Москва, Россия

Аннотация: В данной статье мы представляем новую методологию, которую мы называем MDS-ViTNet (Multi Decoder Saliency by Vision Transformer Network) для улучшения прогнозирования визуальной значимости или слежения за взглядом. Этот подход обладает значительным потенциалом для различных областей, включая маркетинг, медицину, робототехнику и розничную торговлю. Мы предлагаем архитектуру сети, которая использует Vision Transformer, выходя за рамки традиционной структуры ImageNet. Фреймворк принимает структуру кодировщика-декодера, при этом кодировщик использует Swin трансформер для эффективного встраивания наиболее важных особенностей. Этот процесс включает метод трансферного обучения, при котором слои Vision Transformer преобразуются кодировщиком Transformer и бесшовно интегрируются в декодер CNN. Эта методология обеспечивает минимальную потерю информации из исходного изображения. Декодер использует технику множественного декодирования, применяя два декодера для создания двух различных карт внимания. Затем эти карты объединяются в один выходной сигнал с помощью дополнительной модели CNN. Наша обученная модель MDS-ViTNet достигает передовых результатов в нескольких бенчмарках. Стремясь способствовать дальнейшему сотрудничеству, мы планируем сделать наш код, модели и наборы данных доступными для общественности.

УДК: 004.8

Поступило: 27.09.2024
Принято к публикации: 02.10.2024

DOI: 10.31857/S2686954324700620


 Англоязычная версия: Doklady Mathematics, 2024, 110:suppl. 1, S230–S235

Реферативные базы данных:


© МИАН, 2025