RUS  ENG
Полная версия
ЖУРНАЛЫ // Труды института системного программирования РАН // Архив

Труды ИСП РАН, 2023, том 35, выпуск 6, страницы 157–166 (Mi tisp838)

Классификация текста растрового документа по признаку начертания

Д. Е. Копыловab, А. А. Михайловab

a Институт динамики систем и теории управления имени В.М. Матросова Сибирского отделения Российской академии наук
b Институт системного программирования им. В.П. Иванникова РАН

Аннотация: При выделении логической структуры документов используются ряд свойств, одним из которых является полужирное начертание слов текста. Полужирным начертанием в документах часто выделяют заголовки, определяемые слова, названия колонок в таблицах. В данной работе предложен метод классификации текста по жирности начертания, который состоит из последовательности шагов. На первом шаге проводится бинаризация всего изображения. Целью данного шага является разделение пикселей изображения на пиксели текста и фона. Вторым шагом проводится оценка каждого слова. В качестве результата возвращается величина, характеризующая толщину основного штриха символа в данном слове. На последнем шаге проводится кластеризация оценок на два кластера: жирный текст и обычный. Предложенный метод был реализован и протестирован на трех наборах данных, исходный код опубликован в открытом репозитории.

Ключевые слова: анализ документов, растровые документы, классификация текста

DOI: 10.15514/ISPRAS-2023-35(6)-9



© МИАН, 2024