RUS  ENG
Полная версия
ЖУРНАЛЫ // Информатика и её применения // Архив

Информ. и её примен., 2017, том 11, выпуск 3, страницы 73–79 (Mi ia487)

Определение заимствований в тексте без указания источника

К. Ф. Сафинab, М. П. Кузнецовc, М. В. Кузнецоваba

a ЗАО «Анти-плагиат»
b Московский физико-технический институт
c ООО «Форексис»

Аннотация: Для задачи поиска заимствований в тексте существуют два подхода: обнаружение «внешних» и «внутренних» заимствований. При поиске внешних заимствований известен корпус, из которого возможны заимствования. При поиске внутренних заимствований исследуемый текст анализируется изолированно, т. е. возможные источники заимствований неизвестны. Данная работа посвящена поиску внутренних заимствований в тексте. Предполагается, что большая часть текста написана одним автором. Необходимо выделить участки текста, написанные другим автором, если таковые имеются. В работе предлагается алгоритм, строящий статистику сегментов текста, по которой определяется факт зависимости. Эксперимент проводится на коллекции конкурса PAN-2011.

Ключевые слова: обработка естественного языка; детектирование внутренних заимствований; поиск выбросов в статистике.

Поступила в редакцию: 30.01.2017

DOI: 10.14357/19922264170308



Реферативные базы данных:


© МИАН, 2024