Семинары: Ю. Н. Орлов, Статистический анализ литературных текстов

СЕМИНАРЫ


Семинар лаборатории ПреМоЛаб 28 февраля 2013 г. 17:00, г. Москва, Институт проблем передачи информации им. А. А. Харкевича РАН (Б. Каретный пер., 19, метро «Цветной бульвар»), ауд. 615

Статистический анализ литературных текстов Ю. Н. Орлов^ab ^a Институт прикладной математики им. М. В. Келдыша РАН, г. Москва ^b Московский физико-технический институт (государственный университет)
Аннотация: Рассматриваются задачи классификации и идентификации литературных текстов, написанных на европейских языках, на основе анализа статистических закономерностей буквенных распределений, т.е. вероятностей встречаемости букв и буквосочетаний. Тексты классифицируются по авторам, жанрам и иным атрибутам текста. В основе лежит кинетический подход к анализу нестационарных временных рядов, каковыми являются последовательности букв в книге. Для выборочного распределения фрагмента текста по буквам вводится оператор эволюции и выписывается уравнение Лиувилля. Строится спектральный портрет этого оператора и находятся инвариантные подпространства, специфические для каждого автора. Даются оценки на точность метода. При идентификации автора неизвестного текста внутри библиотеки известных текстов используется норма в пространстве суммируемых функций для определения расстояния между распределениями текста по буквосочетаниям и выборе наилучшего (ближайшего по норме) варианта. При изучении текста на однородность (в случае нескольких авторов) применяется индикативная статистика «горизонтных рядов» для распределения расстояний между одинаковыми буквами. Будет рассказан статистический подход к решению таких задач, как установление наиболее вероятного автора неизвестного произведения, переводное это произведение или написанное на языке автора, сколько авторов участвовало в его написании, каков вероятный пол автора (конечно, если автор не опознан). Условие отбора авторов для тестирования метода идентификации состояло в том, что у каждого из них должно быть не менее 10 больших произведений. Для таких авторов на достаточно большой выборке (300 авторов, 3000 текстов) метод, основанный на анализе 3-буквенных сочетаний, показал абсолютную точность идентификации.