Аннотация:
Предложена модель распознавания авторов литературных текстов по близости отдельного текста к эталону автора и алгоритм коррекции возможных ошибок идентификации. Эталоном является эмпирическое распределение частот пар буквосочетаний по анализу достоверно известных произведений автора. Близость между текстами понимается в смысле близости частот биграмм в норме L1. Автором неизвестного текста назначается тот, к эталону которого тестируемый текст находится ближе всего. Для идентификации используется библиотека авторов, каждый из которых имеет достаточно большое количество произведений, определяющих соответствующие эталоны двухбуквенных сочетаний. Тестирование данного метода идентификации на авторах библиотеки показало, что он является весьма точным. В анализируемом корпусе текстов были собраны 1783 текста 100 авторов, ошибка распознавания наилучшим методом оказалась равной 0.12. Важно, что после исключения неверно распознанных текстов осталась библиотека из 88 авторов и 1450 текстов, каждый из которых был идентифицирован безошибочно. Исследуемой проблемой является оценка вероятности того, что среди эталонов библиотеки нет эталона автора тестируемого текста. Для ее решения в работе проведен анализ зависимости вероятности ошибочной идентификации от длины текста. На примере безошибочно определяемой подгруппы текстов выяснилось, что эмпирическая вероятность правильного распознавания фрагмента текста хотя и уменьшается с уменьшением длины фрагмента, все же превосходит 0.5 вплоть до фрагментации текста на 10 частей. При исключении из рассмотрения правильного эталона таковым назначается второй по близости эталон, однако он оказывается неустойчивым: неоднозначность такой идентификации автора фрагментов наступает уже при разрезании текста на 4 фрагмента. Тем самым устойчивость идентификации автора фрагментов текста можно предложить в качестве нового критерия корректности метода.