Аннотация:
Метод, применяемый в данной статье для определения авторства текста,
основывается на формальной математической модели встречаемости последовательности
элементов текста как реализации цепи Маркова. В качестве элементов
текста используются последовательности букв и последовательности
грамматических классов слов. Оказывается, частоты употребления пар букв
и пар грамматических классов в тексте на русском языке являются достаточно
устойчивой характеристикой автора и, видимо, их можно использовать, чтобы
решать проблемы спорного авторства текста. Проводится сопоставление результатов,
полученных при использовании различных вариантов методики в указанных единицах. Эксперимент проводится на 385 текстах 82 писателей.
В Приложении описано исследование Д. В. Хмелёва о возможности применения
алгоритмов сжатия данных в задаче определения авторства.
УДК:
621.391.1
Поступила в редакцию: 08.08.2000 После переработки: 11.01.2001