RUS  ENG
Полная версия
ЖУРНАЛЫ // Вестник Южно-Уральского государственного университета. Серия «Математическое моделирование и программирование» // Архив

Вестн. ЮУрГУ. Сер. Матем. моделирование и программирование, 2022, том 15, выпуск 4, страницы 80–89 (Mi vyuru663)

Эта публикация цитируется в 2 статьях

Программирование

Method for analyzing the structure of noisy images of administrative documents

[Метод анализа структуры зашумленных образов деловых документов]

O. A. Slavina, E. L. Pliskinab

a Federal Research Center “Computer Science and Control” of the Russian Academy
b LLC “Smart Engines Service”, Moscow, Russian Federation

Аннотация: Рассматривается задача извлечения из образа делового документа элементов заполнения (полей) с помощью описаний опорных элементов. Деловые документы содержат статические и переменные элементы (заполнение). Статичными объектами модели являются линии разграфки и слова текста. Описываются наборы объектов, объединенные свойствами и отношениями. Текстовый дескриптор может содержать атрибуты, позволяющие отличать его от сходных дескрипторов. Мы предлагаем применять комбинированные дескрипторы, состоящие из отрезков линий и слов. Экспериментально показано, что извлечение наборов объектов повышает точность распознавания полей документа на 17%, а точность извлечения информации из образа документа – на 16%. В качестве оптического распознавания символов в эксперименте использовалась система SDK Smart Document Engine.

Ключевые слова: зашумленный образ, распознавание документа, текстовая особая точка, дескриптор.

УДК: 004.932.72'1

MSC: 90C35, 90C27

Поступила в редакцию: 15.09.2022

Язык публикации: английский

DOI: 10.14529/mmp220407



© МИАН, 2024