RUS  ENG
Полная версия
ЖУРНАЛЫ // Программные системы: теория и приложения // Архив

Программные системы: теория и приложения, 2025, том 16, выпуск 4, страницы 173–216 (Mi ps480)

Искусственный интеллект и машинное обучение

Comparative analysis of backbone architectures for instance segmentation of objects in aerial imagery using Mask R-CNN

[Сравнительный анализ архитектур backbone для инстанс-сегментации объектов на аэрофотоснимках с использованием Mask R-CNN]

I. V. Vinokurov, D. A. Frolova, A. I. Ilyin, I. R. Kuznetsov

Financial University under the Government of the Russian Federation, Moscow

Аннотация: работе проведено сравнительное исследование моделей Mask R-CNN с различными предобученными backbone-архитектурами для реализации инстанс-сегментации объектов недвижимости на аэрофотоснимках. Модели дообучались на специализированном наборе данных ППК «Роскадастр».
Анализ точности детектирования ограничивающих рамок и масок сегментации объектов выявил предпочтительные архитектуры — трансформеры Swin (Swin-S и Swin-T) и свёрточная сеть ConvNeXt-T. Высокая точность этих моделей объясняется их способностью учитывать глобальные контекстные зависимости между элементами изображения.
Результаты исследования позволяют сформулировать следующие рекомендации по выбору архитектуры backbone: для систем мониторинга в реальном времени, где критична скорость работы, целесообразно применение легковесных моделей (EfficientNet-B3, ConvNeXt-T, Swin-T), для offline задач, требующих максимальной точности (таких как картирование объектов недвижимости), рекомендована крупномасштабная модель Swin-S.

Ключевые слова и фразы: инстанс-сегментация, backbone, Mask R-CNN, ResNet, DenseNet, EfficientNet, ConvNeXt, Swin.

УДК: 004.932.75'1, 004.89
ББК: 32.813.5: 32.973.202-018

MSC: Primary 68T20; Secondary 68T07, 68T45

Поступила в редакцию: 22.09.2025
Подписана в печать : 12.10.2025

Язык публикации: русский и английский

DOI: 10.25209/2079-3316-2025-16-4-173-216



© МИАН, 2025