RUS  ENG
Полная версия
ЖУРНАЛЫ // Труды института системного программирования РАН // Архив

Труды ИСП РАН, 2022, том 34, выпуск 1, страницы 151–160 (Mi tisp671)

Эта публикация цитируется в 1 статье

О комбинированном алгоритме обнаружения заимствований в текстовых документах

К. Ф. Сафинa, Ю. В. Чеховичbc

a Московский физико-технический институт
b Федеральный исследовательский центр «Информатика и управление» РАН
c Компания Антиплагиат

Аннотация: Поиск заимствований в текстовом документе по отношению к обширной коллекции потенциальных источников является вычислительно тяжелой задачей. При этом существуют так называемые внутренние методы поиска заимствований, которые не используют внешний корпус, а анализируют исключительно проверяемый документ. Эти методы не отличаются точностью, но обеспечивают довольно высокую производительность. В работе предложен комбинированный подход к обнаружению текстовых заимствований, основанный на использовании внутренних методов для выявления высокооригинальных документов, проверка которых по внешней коллекции не требуется. Предлагаемый алгоритм призван разгрузить систему поиска заимствований по внешней коллекции, отфильтровывая документы с высокой степенью оригинальности. В работе предлагается алгоритм поиска внутренних заимствований, описываются результаты вычислительных экспериментов.

Ключевые слова: обработка естественного языка, обнаружение заимствований, внутренние заимствования, поиск выбросов в статистике, антиплагиат.

DOI: 10.15514/ISPRAS-2022-34(1)-11



© МИАН, 2024