RUS  ENG
Полная версия
ЖУРНАЛЫ // Препринты Института прикладной математики им. М. В. Келдыша РАН // Архив

Препринты ИПМ им. М. В. Келдыша, 2013, 027, 26 стр. (Mi ipmp1777)

Эта публикация цитируется в 3 статьях

Идентификация автора текста по распределению частот буквосочетаний

Л. А. Борисов, Ю. Н. Орлов, К. П. Осминин


Аннотация: Исследованы распределения расстояний между распределениями триграмм, получена оценка точности частот буквосочетаний в зависимости от длины текста и даны оценки вероятности правильной идентификации автора текста по близости текста к его средневзвешенному эталону в смысле распределения частот. Построены авторские длины представительности для большого числа писателей и показано, что стабилизация триграмм происходит примерно на половине текста независимо от автора и длины текста. Проведен анализ литературного наследия Е. И. Рерих с целью кластеризации ее произведений и проверки ряда утверждений о возможном соавторстве.

Ключевые слова: эмпирическая вероятность, минимально достаточная длина текста, идентификация автора.



© МИАН, 2024