RUS  ENG
Полная версия
ЖУРНАЛЫ // Компьютерная оптика // Архив

Компьютерная оптика, 2022, том 46, выпуск 5, страницы 790–800 (Mi co1072)

Эта публикация цитируется в 1 статье

ОБРАБОТКА ИЗОБРАЖЕНИЙ, РАСПОЗНАВАНИЕ ОБРАЗОВ

Разработка нейросетевого алгоритма распознавания надписей на изображениях реальных сцен

В. А. Лобанова, Ю. А. Иванова

Национальный исследовательский Томский политехнический университет

Аннотация: Работа посвящена проектированию и реализации нейросетевого алгоритма детектирования надписей на изображениях реальных сцен. Проведен обзор существующих нейросетевых и классических моделей, в качестве базовой была выбрана модель U-net. На ее основе предложен и реализован алгоритм детектирования текстовых областей на изображениях. В ходе проведения экспериментов были определены следующие параметры нейронной сети: размеры входных изображений, количество и типы составляющих её слоёв. В качестве предобработки рассматривались билатеральные фильтры сглаживания и сглаживающие частотные фильтры. Увеличение исходной базы изображений KAIST Scene Text Database достигается за счёт применения поворотов, сжатия и разбиения входящих в неё изображений. Полученные результаты превосходят другие методы по значению F-меры и достигают 0,88.

Ключевые слова: детектирование текстовых областей, U-Net, сегментация изображений, изображения реальных сцен

Поступила в редакцию: 13.09.2021
Принята в печать: 22.04.2022

DOI: 10.18287/2412-6179-CO-1047



© МИАН, 2024