Аннотация:
Предлагается разделенный на несколько модулей алгоритм для создания
изображений полнотекстовых документов. Эти изображения можно использовать для
обучения, тестирования и оценки моделей оптического распознавания символов (ОПР).
Алгоритм является модульным, отдельные части могут быть изменены и настроены для
создания желаемых изображений. Описывается метод получения фоновых изображений
бумаги из уже оцифрованных документов. Для этого используется новый, основанный на
вариационном автоэнкодере подход к обучению генеративной модели. Эти фоны позволяют
сразу же сгенерировать такие же фоновые изображения, как те, на которых производилось
обучение.
Для получения правдоподобного эффекта старения в модуле печати текста используются
большие текстовые блоки, типы шрифтов и вариативность изменения яркости символов.
Поддерживаются несколько типов макетов страницы. Система генерирует подробную
структурированную аннотацию искусственного изображения. Для сравнения реальных
изображений с искусственно созданными используется программа Тессеракт ОПР. Точность
распознавания приблизительно схожа, что указывает на правильность сгенерированных
искусственных изображений. Более того, допущенные системой ОПР ошибки в обоих
случаях очень похожи. На основе сгенерированных изображений была обучена архитектура
сверточная кодер-декодер нейронная сеть полностью для семантической сегментации
отдельных символов. Благодаря этой архитектуре достигнута точность распознавания
99,28% в тестовом наборе синтетических документов.