RUS  ENG
Полная версия
ЖУРНАЛЫ // Труды института системного программирования РАН // Архив

Труды ИСП РАН, 2022, том 34, выпуск 2, страницы 89–110 (Mi tisp680)

Функции потерь для обучения моделей сегментации изображений документов

А. И. Перминовab, Д. Ю. Турдаковab, О. В. Беляеваa

a Институт системного программирования им. В.П. Иванникова РАН
b Московский государственный университет имени М. В. Ломоносова

Аннотация: Работа посвящена повышению качества результатов сегментации изображений документов различных научных статей и нормативно-правовых актов нейросетевыми моделями путём обучения с использованием модифицированных функций потерь, учитывающих особенности изображений выбранной предметной области. Проводится анализ существующих функций потерь, а также разработка новых функций, оперирующих, как только координатами ограничивающих прямоугольников, так и использующих информацию о пикселях входного изображения. Для оценки качества выполняется обучение нейросетевой модели сегментации с модифицированными функциями потерь, а также проводится теоретическая оценка с помощью симуляционного эксперимента, показывающего скорость сходимости и ошибку сегментации. В результате исследования созданы быстро сходящиеся функции потерь, улучшающие качество сегментации изображений документов с использованием дополнительной информации о входных данных.

Ключевые слова: сегментация изображений документов, функции потерь, модификация функции потерь

DOI: 10.15514/ISPRAS-2022-34(2)-8



© МИАН, 2024