А. А. Михайлов, “Автоматическая разметка данных для сегментации изображений документов с использованием глубоких нейронных сетей”, Труды ИСП РАН, 2022, том 34, выпуск 6,страницы 137

Автоматическая разметка данных для сегментации изображений документов с использованием глубоких нейронных сетей

А. А. Михайлов^ab

^a Институт системного программирования им. В.П. Иванникова РАН
^b Институт динамики систем и теории управления имени В.М. Матросова Сибирского отделения Российской академии наук

Аннотация: В статье предложен новый метод автоматической аннотации данных для решения задачи сегментации изображений документов с помощью глубоких нейронных сетей обнаружения объектов. В качестве исходных данных для разметки рассматривается формат помеченных файлов PDF. Особенность данного формата заключается в том, что он включает в себя скрытые метки, которые описывают логическую и физическую структуру документа. Для их извлечения разработано инструментальное средство, которое имитирует работу стековой машины вывода на печать согласно спецификации формата PDF. Для каждой страницы документа генерируются изображение, и аннотация в формате PASCAL VOC. Классы и координаты ограничивающих рамок вычисляются в процессе интерпретации помеченного PDF файла на основе меток. Для апробации метода была сформирована коллекция размеченных PDF файлов из которой в автоматическом режиме получены изображения страниц документов и аннотации для трех классов сегментации. На основе этих данных обучена нейронная сеть архитектуры EfficientDet D2. Произведено тестирование модели на данных из того же домена, размеченных вручную, которое подтвердило эффективность применения автоматически сгенерированных данных для решения прикладных задач.

Ключевые слова: сегментация документов, сегментация изображений документов, глубокие нейронные сети, обнаружение объектов

DOI: 10.15514/ISPRAS-2022-34(6)-10