Аннотация:
Оценка глубины – это важная задача в различных областях, однако высокая стоимость сбора данных с разметкой глубины привела к увеличению интереса к методам самообучающейся оценки глубины по одному изображению. В этой работе мы представляем SwiftDepth++, легкую модель оценки глубины, которая обеспечивает конкурентоспособные результаты при сохранении низкого уровня вычислительных затрат. Основное нововведение SwiftDepth++ заключается в его уникальном декодере глубины, который повышает эффективность, быстро сжимая признаки при сохранении важной информации. Кроме того, мы внедрили схему передачи знаний от учителя к ученику, которая помогает модели-ученику улучшать свои прогнозы. Мы оценили SwiftDepth++ на наборах данных KITTI и NYU, где она достигает абсолютной относительной ошибки (Abs-rel) 10.2% на наборе данных KITTI и 22% на наборе данных NYU без дополнительной настройки, используя при этом всего около 6 млн параметров. Эти результаты показывают, что SwiftDepth++ не только удовлетворяет требованиям современных задач оценки глубины, но и значительно снижает вычислительную сложность, что делает его практичным выбором для реальных приложений.
Ключевые слова:
3D зрение, передача знаний, легкая модель оценки глубины, оценка глубины по одному изображению, самообучение, гибридные модели, обучение без разметки.
УДК:
004.8
Поступило: 27.09.2024 Принято к публикации: 02.10.2024