Аннотация:
Рассматривается задача извлечения из распознанного образа документа элементов заполнения (полей) с помощью дескрипторов – описаний одного или нескольких структурных элементов. Структурными элементами могут быть слова статического текста и линии разграфки, используемые для оформления дизайна документа. Рассматриваются деловые документы с упрощенной структурой и ограниченным словарем. Рассматриваются гибкие деловые документы, допускающие существенные модификации дизайна страницы. Дескрипторы создаются с учетом значительного числа возможных ошибок распознавания страниц документов. Описываются комбинированные дескрипторы, состоящие из нескольких термов и отрезков линий. Приводится алгоритм привязки, базирующийся на дескрипторах. Экспериментально показывается, что извлечение комбинированных дескрипторов улучшает точность распознавания полей документа при распознавании на 17%, а точность извлечения информации из образа документа – на 16%. В качестве OCR в эксперименте использовалась система SDK Smart Document Engine.