RUS  ENG
Полная версия
ЖУРНАЛЫ // Труды института системного программирования РАН // Архив

Труды ИСП РАН, 2020, том 32, выпуск 4, страницы 175–188 (Mi tisp533)

Эта публикация цитируется в 2 статьях

Извлечение логической структуры из сканированных документов

А. О. Богатенковаa, И. С. Козловb, О. В. Беляеваb, А. И. Перминовa

a Московский государственный университет имени М.В. Ломоносова
b Институт системного программирования им. В.П. Иванникова РАН

Аннотация: В статье предложен конвейер обработки сканированных документов, а также разработан метод извлечения структуры из них. Данный метод основан на многоклассовой классификации строк документа, в том числе классификации на заголовки и списки. Конвейер состоит из извлечения текста и рамок строк документов с помощью методов OCR, формирования признаков и обучения классификатора на данных признаках. Кроме того, размечен и доступен для изучения корпус документов, проведена экспериментальная проверка реализованного метода на данном корпусе и описаны возможности для дальнейшей работы и исследований.

Ключевые слова: машинное обучение, структура документа, обработка естественного языка, OCR.

DOI: 10.15514/ISPRAS-2020-32(4)-13



© МИАН, 2024