RUS  ENG
Полная версия
ЖУРНАЛЫ // Вестник Южно-Уральского государственного университета. Серия «Математическое моделирование и программирование» // Архив

Вестн. ЮУрГУ. Сер. Матем. моделирование и программирование, 2024, том 17, выпуск 1, страницы 75–85 (Mi vyuru713)

Программирование

Table recognition technology in tax documents of the Russian Federation

[Технология распознавания таблиц в налоговых документах РФ]

O. A. Slavinab

a Federal Research Center “Computer Science and Control” RAS, Moscow, Russian Federation
b LLC “Smart Engines Service”, Moscow, Russian Federation

Аннотация: Рассматривается известная задача распознавания ячеек таблиц на изображении. Исследуется обработка налогового российского документа 2-НДФЛ. Несмотря на простую структуру таблиц, способ печати основан на гибком шаблоне. Гибкость формы наблюдается как в части модификаций текстовой информации, так и в области таблиц. Гибкость таблиц состоит в изменении числа и размеров столбцов. Для детектирования таблиц был предложен структурный метод. Входными данными метода являются детектированные горизонтальные и вертикальные отрезки. Поиск отрезков проводился механизмами, реализованными в системе Smart Document Reader. Апробация и внедрение предложенного метода также осуществлялось в системе Smart Document Reader. Кроме детектирования области предполагаемого размещения таблиц решены следующие задачи: поиск ячеек таблиц, именование ячеек таблиц, валидация области таблицы. Валидация области таблицы проводилась для отдельных таблиц, а также для совокупностей таблиц. Применение описаний совокупностей таблиц обеспечило высокую надежность привязки набора таблиц.

Ключевые слова: распознавание таблиц, детектирование отрезка, раскладка таблиц.

УДК: 004.932.72'1

MSC: 90C35, 90C27

Поступила в редакцию: 14.11.2023

Язык публикации: английский

DOI: 10.14529/mmp240107



© МИАН, 2024