Аннотация:
Распознавание рукописных символов (HCR) является сложной задачей для исследователей в области машинного обучения. В отличие от печатных текстов, наборы данных с рукописными символами имеют большее разнообразие из-за человеческого фактора. При наличии множества классов символов в наборах данных, таких как логографические системы или сино-корейские последовательности, возникают новые сложности в задаче HCR. Классификационное задание с такими наборами данных требует от модели изучения деталей изображений, которые имеют схожие характеристики. Благодаря недавним достижениям в расширении доступности вычислительных ресурсов и дальнейшему развитию теории компьютерного зрения, исследовательские группы эффективно справились с некоторыми возникающими проблемами. Хотя известные подходы достигают высокой точности, сохраняя небольшое количество параметров моделей, многие из них все еще не несут обобщаемой природы и используют особенности отдельных наборов данных для достижения лучших результатов. Из-за своей сложной структуры существующие методы часто препятствуют популяризации решений. В данной статье мы предлагаем высоко масштабируемый подход к классификации сложных символов путем описания архитектуры модели, шагов предобработки данных и инструкций по тестированию. Мы также проводим эксперименты для сравнения результатов нашего метода с существующими, чтобы продемонстрировать достигнутые улучшения.
Ключевые слова:
классификация символов высокой сложности, распознавание рукописных символов, глубокое обучение, компьютерное зрение.
УДК:
004.8
Поступило: 27.09.2024 Принято к публикации: 02.10.2024