RUS  ENG
Полная версия
ЖУРНАЛЫ // Проблемы передачи информации // Архив

Пробл. передачи информ., 2001, том 37, выпуск 2, страницы 96–109 (Mi ppi520)

Эта публикация цитируется в 93 статьях

Кодирование источников

Определение авторства текста с использованием буквенной и грамматической информации

О. В. Кукушкина, А. А. Поликарпов, Д. В. Хмелёв


Аннотация: Метод, применяемый в данной статье для определения авторства текста, основывается на формальной математической модели встречаемости последовательности элементов текста как реализации цепи Маркова. В качестве элементов текста используются последовательности букв и последовательности грамматических классов слов. Оказывается, частоты употребления пар букв и пар грамматических классов в тексте на русском языке являются достаточно устойчивой характеристикой автора и, видимо, их можно использовать, чтобы решать проблемы спорного авторства текста. Проводится сопоставление результатов, полученных при использовании различных вариантов методики в указанных единицах. Эксперимент проводится на 385 текстах 82 писателей.
В Приложении описано исследование Д. В. Хмелёва о возможности применения алгоритмов сжатия данных в задаче определения авторства.

УДК: 621.391.1

Поступила в редакцию: 08.08.2000
После переработки: 11.01.2001


 Англоязычная версия: Problems of Information Transmission, 2001, 37:2, 172–184

Реферативные базы данных:


© МИАН, 2024