А. В. Грабовой, М. С. Каприелова, А. С. Кильдяков, И. О. Потяшин, Т. Б. Сейил, Е. Л. Финогеев, Ю. В. Чехович, “Поиск текстовых заимствований в рукописных текстах”, Докл. РАН. Матем., информ., проц. упр., 2023, том 514, номер 2,страницы 297

СПЕЦИАЛЬНЫЙ ВЫПУСК: ТЕХНОЛОГИИ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА И МАШИННОГО ОБУЧЕНИЯ

Поиск текстовых заимствований в рукописных текстах

А. В. Грабовой^ab, М. С. Каприелова^abc, А. С. Кильдяков^a, И. О. Потяшин^a, Т. Б. Сейил^a, Е. Л. Финогеев^a, Ю. В. Чехович^ac

^a Компания Антиплагиат, Москва, Россия
^b Московский физико-технический институт, Москва, Россия
^c Федеральный исследовательский центр «Информатика и управление» Российской академии наук, Москва, Россия

Аннотация: Поиск заимствований в учебных работах становится в последнее время все более актуальной задачей. Повышение популярности онлайн-образования, активная экспансия онлайн-платформ, ориентированных на среднее образование, формируют потребность в инструменте, способном проверять на заимствования рукописные работы школьников. Существующие подходы к поиску рукописных заимствований не подходят для быстрой проверки значительного количества работ по большими коллекциям потенциальных источников. Это существенно ограничивает их применимость. Кроме того, на практике требуется обрабатывать изображения текстовых страниц посредственного качества, выполненные, как правило, с помощью фотокамер мобильных телефонов. Мы предлагаем метод, который позволяет выявлять заимствованные фрагменты текста в документах, представленных в виде изображений (фотографий) рукописных текстов, при сопоставлении с большими коллекциями источников. Метод включает в себя три этапа: распознавание символов рукописного текста, поиск кандидатов и последующий точный поиск источника заимствований. В работе приведены результаты экспериментов по оценке качества и производительности разработанной системы. Полнота поиска заимствований в рукописных документах достигает 83.3% при обработке изображений высокого качества и 77.4% при обработке изображений худшего качества. Время выполнения поиска для одного документа по коллекции источников из 100 000 документов составляет в среднем 3.2 с при использовании CPU. Результаты показали, что созданная нами система может быть масштабирована и использована для промышленных задач, требующих быстрой проверки сотен тысяч школьных сочинений по большому количеству потенциальных источников заимствований. Все эксперименты проводились на открытом наборе данных HWR200.

Ключевые слова: оптическое распознавание символов, рукописный текст, поиск текстовых заимствований, компьютерное зрение, распознавание рукописного текста.

УДК: 004.(89+93)

Статья представлена к публикации: А. Л. Семёнов
Поступило: 02.09.2023
После доработки: 15.09.2023
Принято к публикации: 18.10.2023

DOI: 10.31857/S2686954323601720