М. В. Загородников, А. А. Михайлов, “Восстановление текстового слоя PDF документов со сложным фоном”, Труды ИСП РАН, 2024, том 36, выпуск 3,страницы 189

Восстановление текстового слоя PDF документов со сложным фоном

М. В. Загородников^a, А. А. Михайлов^ab

^a Институт динамики систем и теории управления имени В.М. Матросова Сибирского отделения Российской академии наук, г. Иркутск
^b Институт системного программирования им. В.П. Иванникова РАН

Аннотация: В статье рассматривается формат PDF как инструмент для хранения и передачи документов. Особое внимание уделяется проблеме преобразования данных из формата PDF обратно в исходный формат. Актуальность исследования обусловлена широким использованием формата PDF в электронном документообороте современных организаций. Однако, несмотря на удобство использования PDF, извлечение информации из таких документов может быть затруднено из-за особенностей хранения информации в формате и отсутствия эффективных инструментов для обратного преобразования. В работе предлагается решение, основанное на анализе потока вывода текстовой информации формата PDF. Это позволяет автоматически распознавать текст в PDF-документах, даже если в них есть нестандартные шрифты, сложный фон и повреждена кодировка. Исследование представляет интерес для специалистов в области электронного документооборота, а также для разработчиков программного обеспечения, занимающихся созданием инструментов для работы с PDF.

Ключевые слова: кодировка, PDF, документы, CNN, извлечение, текст

DOI: 10.15514/ISPRAS-2024-36(3)-13