RUS  ENG
Полная версия
ЖУРНАЛЫ // Информационные технологии и вычислительные системы // Архив

ИТиВС, 2022, выпуск 4, страницы 13–24 (Mi itvs782)

Эта публикация цитируется в 1 статье

ИНТЕЛЛЕКТУАЛЬНЫЕ СИСТЕМЫ И ТЕХНОЛОГИИ

Применение дескрипторов объектов для привязки структурных элементов зашумленных образов деловых документов

О. А. Славинab

a Федеральное государственное учреждение "Федеральный исследовательский центр "Информатика и управление" Российской академии наук", г. Москва, Россия
b ООО "Смарт Энджинс Сервис"

Аннотация: Рассматривается задача извлечения из распознанного образа документа элементов заполнения (полей) с помощью дескрипторов – описаний одного или нескольких структурных элементов. Структурными элементами могут быть слова статического текста и линии разграфки, используемые для оформления дизайна документа. Рассматриваются деловые документы с упрощенной структурой и ограниченным словарем. Рассматриваются гибкие деловые документы, допускающие существенные модификации дизайна страницы. Дескрипторы создаются с учетом значительного числа возможных ошибок распознавания страниц документов. Описываются комбинированные дескрипторы, состоящие из нескольких термов и отрезков линий. Приводится алгоритм привязки, базирующийся на дескрипторах. Экспериментально показывается, что извлечение комбинированных дескрипторов улучшает точность распознавания полей документа при распознавании на 17%, а точность извлечения информации из образа документа – на 16%. В качестве OCR в эксперименте использовалась система SDK Smart Document Engine.

Ключевые слова: зашумленный образ, распознавание документа, текстовая особая точка, дескриптор.

DOI: 10.14357/20718632220402



Реферативные базы данных:


© МИАН, 2024