RUS  ENG
Полная версия
ЖУРНАЛЫ // Препринты Института прикладной математики им. М. В. Келдыша РАН // Архив

Препринты ИПМ им. М. В. Келдыша, 2024, 016, 18 стр. (Mi ipmp3226)

Распределение порядковых частот согласных букв как инвариант языковой группы

М. Ю. Кислицына, Ю. Н. Орлов


Аннотация: Собрана статистика распределения частот согласных букв в основных современных языках индоевропейской семьи. Изучались распределения упорядоченных по убыванию частот, построенные на основе анализа литературных текстов длиной порядка 1 млн знаков. Показано, что можно ввести инвариант языковых групп – германской, романской, славянской и балтийской – как расстояние между элементами группы в норме L1. Пороговое расстояние, при котором языки объединяются в группы как полносвязные подграфы, равен 0,14. Показано также, что структуры графа ближних и дальних соседей соответствует модели зависимых случайных величин.

Ключевые слова: машинная классификация, предобработка текстов, распределение упорядоченных частот, граф ближайших соседей.

DOI: 10.20948/prepr-2024-16



© МИАН, 2024