Аннотация:
Целью моделирования процесса оптического распознавания символов является повышение качества классификации различных документов. Нецифровые документы, например отсканированные или сфото-графированные, в системах электронного документооборота сложно корректно классифицировать. Принято решение смоделировать процесс оптического распознавания символов в нормативных документах организации. Рассмотрены различные методы для моделирования данного процесса. Приведена структура подразделений для системы электронного документооборота. Рассмотрены методы реализации оптического распознавания символов (ОРС). Выявлены этапы разработки системы ОРС: обработка изображения, сегментация, распознавание. Проанализированы методы обработки изображения. Раскрыты основные процессы, связанные с обработкой изображения: выравнивание, размытие, бинаризация, нахождение контуров, удаление лишних линий. Произведено сравнение методов размытия изображения. Определены два этапа бинаризации изображения: перевод цветного изображения в серое, бинаризация серого изображения. В качестве второго этапа бинаризации предложен оператор Кенни, который используется для обнаружения границ изображения. Последним этапом обработки изображения установлен процесс удаления лишних линий. Рассмотрены алгоритмы разделения областей текста на сегменты. Выявлены 3 этапа сегментации: сегментация строк, сегментация слов, сегментация символов. Определен алгоритм сегментирования, основанный на вычислении средней яркости пикселей изображения для поиска различных интервалов: межстрочного, межсловного, межсимвольного. Рассмотрены доступные популярные онлайн-сервисы ОРС, а также некоторые популярные настольные программы. Обнаружена связь между искусственной нейронной сетью и оптическим распознаванием объектов. Для реализации этапа распознавания предложено использовать искусственную нейронную сеть.