Титульная страница Программные системы: теория и приложения  English version
ISSN 2079-3316 Двуязычный электронный научный Электронный научный журнал Института программных систем имени А. К. Айламазяна ИПС им. А. К. Айламазяна ИПС Российской Академии Наук РАН 12+ 
Том 16 (2025) .– Выпуск 4 (67) .– Статья № 7 (454)

Искусственный интеллект и машинное обучение

Научная статья

Сравнительный анализ архитектур backbone для инстанс-сегментации объектов на аэрофотоснимках с использованием Mask R-CNN

Игорь Викторович Винокуров1Переписывавшийся автор, Дарья Александровна Фролова2, Андрей Иванович Ильин3, Иван Романович Кузнецов4

1-4Финансовый Университет при Правительстве Российской Федерации, Москва, Россия
1 Игорь Викторович Винокуров — Переписывавшийся автор igvvinokurov@fa.ru

Аннотация. В работе проведено сравнительное исследование моделей Mask R-CNN с различными предобученными backbone-архитектурами для реализации инстанс-сегментации объектов недвижимости на аэрофотоснимках. Модели дообучались на специализированном наборе данных ППК «Роскадастр».

Анализ точности детектирования ограничивающих рамок и масок сегментации объектов выявил предпочтительные архитектуры — трансформеры Swin (Swin-S и Swin-T) и свёрточная сеть ConvNeXt-T. Высокая точность этих моделей объясняется их способностью учитывать глобальные контекстные зависимости между элементами изображения.

Результаты исследования позволяют сформулировать следующие рекомендации по выбору архитектуры backbone: для систем мониторинга в реальном времени, где критична скорость работы, целесообразно применение легковесных моделей (EfficientNet-B3, ConvNeXt-T, Swin-T), для offline задач, требующих максимальной точности (таких как картирование объектов недвижимости), рекомендована крупномасштабная модель Swin-S. (Связанные тексты статьи на английском и на русском языках).

Ключевые слова: инстанс-сегментация, backbone, Mask R-CNN, ResNet, DenseNet, EfficientNet, ConvNeXt, Swin

Для цитирования: Винокуров И. В., Фролова Д. А., Ильин А. И., Кузнецов И. Р. Сравнительный анализ архитектур backbone для инстанс-сегментации объектов на аэрофотоснимках с использованием Mask R-CNN // Программные системы: теория и приложения. 2025. Т. 16. № 4. С. 173–216. (Англ., Рус.). https://psta.psiras.ru/2025/4_173-216.

Полный текст двуязычной статьи (PDF): https://psta.psiras.ru/read/psta2025_4_173-216.pdf (клик по флажку в верхнем колонитуле переключит язык страницы).

Русскоязычная часть оригинальной двуязычной статьи (PDF): https://psta.psiras.ru/read/psta2025_4_173-216-ru.pdf.

Статья поступила в редакцию 22.09.2025; одобрена после рецензирования 27.09.2025; принята к публикации 12.10.2025; опубликована онлайн 19.10.2025.

© Винокуров И. В., Фролова Д. А., Ильин А. И., Кузнецов И. Р.
2025
Адрес редакции: 152021, Ярославская обл., Переславский район, село Веськово, ул. Петра Первого, д. 4а, Институт программных систем имени А. К. Айламазяна РАН;   Сетевой адрес издания:  http://psta.psiras.ru  Тел: +7(4852) 695-228 ;  E-mail: info@psta.psiras.ru ;  Лицензия: CC-BY-4.0Текст лицензии на сайте Creative Commons 
© Федеральное государственное бюджетное учреждение науки Институт программных систем имени А. К. Айламазяна Российской академии наук (дизайн сайта) 2010–2025