О. В. Кукушкина, А. А. Поликарпов, Д. В. Хмелёв, “Определение авторства текста с использованием буквенной и грамматической информации”, Пробл. передачи информ., 2001, том 37, выпуск 2,страницы 96

Эта публикация цитируется в 95 статьях

Кодирование источников

Определение авторства текста с использованием буквенной и грамматической информации

О. В. Кукушкина, А. А. Поликарпов, Д. В. Хмелёв

Аннотация: Метод, применяемый в данной статье для определения авторства текста, основывается на формальной математической модели встречаемости последовательности элементов текста как реализации цепи Маркова. В качестве элементов текста используются последовательности букв и последовательности грамматических классов слов. Оказывается, частоты употребления пар букв и пар грамматических классов в тексте на русском языке являются достаточно устойчивой характеристикой автора и, видимо, их можно использовать, чтобы решать проблемы спорного авторства текста. Проводится сопоставление результатов, полученных при использовании различных вариантов методики в указанных единицах. Эксперимент проводится на 385 текстах 82 писателей.
В Приложении описано исследование Д. В. Хмелёва о возможности применения алгоритмов сжатия данных в задаче определения авторства.

УДК: 621.391.1

Поступила в редакцию: 08.08.2000
После переработки: 11.01.2001