RUS  ENG
Полная версия
СЕМИНАРЫ



Статистические свойства текстов на европейских языках и анализ Манускрипта Войнича

Ю. Н. Орлов

Институт прикладной математики им. М.В. Келдыша Российской академии наук, г. Москва

Аннотация: В докладе будут представлены результаты исследования инвариантных свойств европейских языков методом анализа близости распределений буквосочетаний в литературных текстах. Для нахождения языковых инвариантов используются следующие статистики: расстояние между распределениями упорядоченных эмпирических частот буквосочетаний; уровень детерминации специальной аппроксимации однобуквенных распределений для текстов без огласовки; показатель Херста для ряда из количества букв, заключенных между двумя наиболее часто встречающимися одинаковыми буквами; спектральный портрет матрицы двухбуквенных сочетаний. Перечисленные индикаторы позволили провести формальную кластеризацию языков индоевропейской семьи по языковым группам, большей частью совпавшим с группами, которые были сформированы на основе историко-лингвистических исследований. Также в работе анализируется возможный язык рукописи Войнича – некоего зашифрованного документа XVI века. Определено, что это, скорее всего, осмысленный двуязычный текст без огласовки.


© МИАН, 2024