RUS  ENG
Полная версия
ЖУРНАЛЫ // Труды института системного программирования РАН // Архив

Труды ИСП РАН, 2020, том 32, выпуск 4, страницы 203–216 (Mi tisp535)

Эта публикация цитируется в 1 статье

Использование доменно-состязательного обучения для распознавания текстовых капч

Д. О. Кущукa, М. А. Рындинb, А. К. Яцковb, М. И. Варламовb

a Московский физико-технический институт
b Институт системного программирования им. В.П. Иванникова РАН

Аннотация: Несмотря на появление более продвинутых вариантов публичных тестов Тьюринга, в настоящее время текстовая капча является достаточно распространённой, поэтому создание методов ее автоматического решения актуальны и сегодня. Современные алгоритмы успешно справляются с этой задачей, однако, обладают рядом ограничений, таких как: неспособность работать с изменяющейся длиной текста на изображении, медленное и сложное обучение. В данной работе представлен алгоритм атак на текстовые капчи, не требующий априорного знания длины текста на изображении. Экспериментально показано, что использование данного алгоритма совместно с методом состязательного обучения позволяет добиваться высокого качества на реальных данных, используя 200-500 размеченных примеров для обучения. Экспериментальное сравнение разработанного метода с современными аналогами показало, что при использовании одинакового числа реальных примеров для обучения наш алгоритм показывает сравнимое или более высокое качество, при этом он имеет более высокую скорость работы и обучения.

Ключевые слова: машинное обучение, решение капчи, OCR, состязательное обучение.

DOI: 10.15514/ISPRAS-2020-32(4)-15



© МИАН, 2024