RUS  ENG
Полная версия
ЖУРНАЛЫ // Труды института системного программирования РАН // Архив

Труды ИСП РАН, 2022, том 34, выпуск 6, страницы 137–146 (Mi tisp744)

Автоматическая разметка данных для сегментации изображений документов с использованием глубоких нейронных сетей

А. А. Михайловab

a Институт системного программирования им. В.П. Иванникова РАН
b Институт динамики систем и теории управления имени В.М. Матросова Сибирского отделения Российской академии наук

Аннотация: В статье предложен новый метод автоматической аннотации данных для решения задачи сегментации изображений документов с помощью глубоких нейронных сетей обнаружения объектов. В качестве исходных данных для разметки рассматривается формат помеченных файлов PDF. Особенность данного формата заключается в том, что он включает в себя скрытые метки, которые описывают логическую и физическую структуру документа. Для их извлечения разработано инструментальное средство, которое имитирует работу стековой машины вывода на печать согласно спецификации формата PDF. Для каждой страницы документа генерируются изображение, и аннотация в формате PASCAL VOC. Классы и координаты ограничивающих рамок вычисляются в процессе интерпретации помеченного PDF файла на основе меток. Для апробации метода была сформирована коллекция размеченных PDF файлов из которой в автоматическом режиме получены изображения страниц документов и аннотации для трех классов сегментации. На основе этих данных обучена нейронная сеть архитектуры EfficientDet D2. Произведено тестирование модели на данных из того же домена, размеченных вручную, которое подтвердило эффективность применения автоматически сгенерированных данных для решения прикладных задач.

Ключевые слова: сегментация документов, сегментация изображений документов, глубокие нейронные сети, обнаружение объектов

DOI: 10.15514/ISPRAS-2022-34(6)-10



© МИАН, 2024