|
СЕМИНАРЫ |
Семинар лаборатории ПреМоЛаб
|
|||
|
Статистический анализ литературных текстов Ю. Н. Орловab a Институт прикладной математики им. М. В. Келдыша РАН, г. Москва b Московский физико-технический институт (государственный университет) |
|||
Аннотация: Рассматриваются задачи классификации и идентификации литературных текстов, написанных на европейских языках, на основе анализа статистических закономерностей буквенных распределений, т.е. вероятностей встречаемости букв и буквосочетаний. Тексты классифицируются по авторам, жанрам и иным атрибутам текста. В основе лежит кинетический подход к анализу нестационарных временных рядов, каковыми являются последовательности букв в книге. Для выборочного распределения фрагмента текста по буквам вводится оператор эволюции и выписывается уравнение Лиувилля. Строится спектральный портрет этого оператора и находятся инвариантные подпространства, специфические для каждого автора. Даются оценки на точность метода. При идентификации автора неизвестного текста внутри библиотеки известных текстов используется норма в пространстве суммируемых функций для определения расстояния между распределениями текста по буквосочетаниям и выборе наилучшего (ближайшего по норме) варианта. При изучении текста на однородность (в случае нескольких авторов) применяется индикативная статистика «горизонтных рядов» для распределения расстояний между одинаковыми буквами. Будет рассказан статистический подход к решению таких задач, как установление наиболее вероятного автора неизвестного произведения, переводное это произведение или написанное на языке автора, сколько авторов участвовало в его написании, каков вероятный пол автора (конечно, если автор не опознан). Условие отбора авторов для тестирования метода идентификации состояло в том, что у каждого из них должно быть не менее 10 больших произведений. Для таких авторов на достаточно большой выборке (300 авторов, 3000 текстов) метод, основанный на анализе 3-буквенных сочетаний, показал абсолютную точность идентификации. |