Аннотация:
В данной статье мы представляем новую методологию, которую мы называем MDS-ViTNet (Multi Decoder Saliency by Vision Transformer Network) для улучшения прогнозирования визуальной значимости или слежения за взглядом. Этот подход обладает значительным потенциалом для различных областей, включая маркетинг, медицину, робототехнику и розничную торговлю. Мы предлагаем архитектуру сети, которая использует Vision Transformer, выходя за рамки традиционной структуры ImageNet. Фреймворк принимает структуру кодировщика-декодера, при этом кодировщик использует Swin трансформер для эффективного встраивания наиболее важных особенностей. Этот процесс включает метод трансферного обучения, при котором слои Vision Transformer преобразуются кодировщиком Transformer и бесшовно интегрируются в декодер CNN. Эта методология обеспечивает минимальную потерю информации из исходного изображения. Декодер использует технику множественного декодирования, применяя два декодера для создания двух различных карт внимания. Затем эти карты объединяются в один выходной сигнал с помощью дополнительной модели CNN. Наша обученная модель MDS-ViTNet достигает передовых результатов в нескольких бенчмарках. Стремясь способствовать дальнейшему сотрудничеству, мы планируем сделать наш код, модели и наборы данных доступными для общественности.
УДК:
004.8
Поступило: 27.09.2024 Принято к публикации: 02.10.2024