RUS  ENG
Полная версия
ЖУРНАЛЫ // Доклады Российской академии наук. Математика, информатика, процессы управления // Архив

Докл. РАН. Матем., информ., проц. упр., 2025, том 527, страницы 134–145 (Mi danma673)

СПЕЦИАЛЬНЫЙ ВЫПУСК: ТЕХНОЛОГИИ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА И МАШИННОГО ОБУЧЕНИЯ

Перспективы нейросетевой многовидовой 3D-реконструкции по изображениям и данным глубины

Г. А. Бобровскихa, О. Я. Войновba, Е. В. Бурнаевba

a Сколковский институт науки и технологий, Москва, Россия
b AIRI, Москва, Россия

Аннотация: Нейросетевые методы многовидового стерео (MVS) в последние годы добились заметного прогресса в задачах плотной 3D-реконструкции, однако остаются принципиально ограничены из-за того, что опираются на фотометрические признаки в своих предсказаниях. В результате существующие методы часто дают сбои в областях с низкой текстурой или с отражениями. В то же время общедоступные датчики времени пролета (ToF) предоставляют комплементарную геометрическую информацию о глубине, но отличаются низким разрешением и высоким уровнем шума. В этой работе мы исследуем возможность использования 3D-признаков, извлеченных из данных глубины, для преодоления ограничений MVS. Для этого мы предлагаем RGB-D MVSNet – архитектуру, которая интегрирует предобученного энкодер глубины с современной обучаемой MVS-моделью. Наш метод формирует единый объём признаков из фотометрических и геометрических компонентов, который затем регуляризуется общим декодером. Мы оцениваем подход на сложном датасете Sk3D, который содержит синхронизированные RGB-кадры, глубину ToF и высококачественные 3D сканы. Эксперименты показывают, что наш метод улучшает метрики точности и полноты по сравнению с базовой моделью, использующей только RGB, а также имеет некоторые качественные улучшения в реконструкции сложных областей. Дополнительные эксперименты с высококачественной глубиной демонстрируют, что при повышении качества входной глубины метод способен устранять типичные артефакты почти полностью. Эти результаты свидетельствуют о перспективности интеграции геометрических признаков в подходы MVS, чтобы достичь более устойчивой 3D-реконструкции и лучшей обобщающей способности.

Ключевые слова: трехмерная реконструкция, RGB-D реконструкция, многовидовое стерео, глубинное слияние.

УДК: 004.8

Поступило: 21.08.2025
Принято к публикации: 22.09.2025

DOI: 10.7868/S2686954325070112



Реферативные базы данных:


© МИАН, 2026