Аннотация:
Нейросетевые методы многовидового стерео (MVS) в последние годы добились заметного прогресса в задачах плотной 3D-реконструкции, однако остаются принципиально ограничены из-за того, что опираются на фотометрические признаки в своих предсказаниях. В результате существующие методы часто дают сбои в областях с низкой текстурой или с отражениями. В то же время общедоступные датчики времени пролета (ToF) предоставляют комплементарную геометрическую информацию о глубине, но отличаются низким разрешением и высоким уровнем шума. В этой работе мы исследуем возможность использования 3D-признаков, извлеченных из данных глубины, для преодоления ограничений MVS. Для этого мы предлагаем RGB-D MVSNet – архитектуру, которая интегрирует предобученного энкодер глубины с современной обучаемой MVS-моделью. Наш метод формирует единый объём признаков из фотометрических и геометрических компонентов, который затем регуляризуется общим декодером. Мы оцениваем подход на сложном датасете Sk3D, который содержит синхронизированные RGB-кадры, глубину ToF и высококачественные 3D сканы. Эксперименты показывают, что наш метод улучшает метрики точности и полноты по сравнению с базовой моделью, использующей только RGB, а также имеет некоторые качественные улучшения в реконструкции сложных областей. Дополнительные эксперименты с высококачественной глубиной демонстрируют, что при повышении качества входной глубины метод способен устранять типичные артефакты почти полностью. Эти результаты свидетельствуют о перспективности интеграции геометрических признаков в подходы MVS, чтобы достичь более устойчивой 3D-реконструкции и лучшей обобщающей способности.