М. Ю. Воронина, А. А. Кислицын, Ю. Н. Орлов, “Алгоритм коррекции метода биграмм в задаче идентификации автора текста”, Матем. моделирование, 2022, том 34, номер 9,страницы 3

Эта публикация цитируется в 2 статьях

Алгоритм коррекции метода биграмм в задаче идентификации автора текста

М. Ю. Воронина, А. А. Кислицын, Ю. Н. Орлов

Институт прикладной математики им. М.В. Келдыша РАН

Аннотация: Предложена модель распознавания авторов литературных текстов по близости отдельного текста к эталону автора и алгоритм коррекции возможных ошибок идентификации. Эталоном является эмпирическое распределение частот пар буквосочетаний по анализу достоверно известных произведений автора. Близость между текстами понимается в смысле близости частот биграмм в норме L1. Автором неизвестного текста назначается тот, к эталону которого тестируемый текст находится ближе всего. Для идентификации используется библиотека авторов, каждый из которых имеет достаточно большое количество произведений, определяющих соответствующие эталоны двухбуквенных сочетаний. Тестирование данного метода идентификации на авторах библиотеки показало, что он является весьма точным. В анализируемом корпусе текстов были собраны 1783 текста 100 авторов, ошибка распознавания наилучшим методом оказалась равной 0.12. Важно, что после исключения неверно распознанных текстов осталась библиотека из 88 авторов и 1450 текстов, каждый из которых был идентифицирован безошибочно. Исследуемой проблемой является оценка вероятности того, что среди эталонов библиотеки нет эталона автора тестируемого текста. Для ее решения в работе проведен анализ зависимости вероятности ошибочной идентификации от длины текста. На примере безошибочно определяемой подгруппы текстов выяснилось, что эмпирическая вероятность правильного распознавания фрагмента текста хотя и уменьшается с уменьшением длины фрагмента, все же превосходит 0.5 вплоть до фрагментации текста на 10 частей. При исключении из рассмотрения правильного эталона таковым назначается второй по близости эталон, однако он оказывается неустойчивым: неоднозначность такой идентификации автора фрагментов наступает уже при разрезании текста на 4 фрагмента. Тем самым устойчивость идентификации автора фрагментов текста можно предложить в качестве нового критерия корректности метода.

Ключевые слова: текст, автор, распределение частот буквосочетаний, идентификация фрагмента, коррекция ошибки.

Поступила в редакцию: 07.04.2022
Исправленный вариант: 23.05.2022
Принята в печать: 27.06.2022

DOI: 10.20948/mm-2022-09-01