RUS  ENG
Полная версия
ЖУРНАЛЫ // Препринты Института прикладной математики им. М. В. Келдыша РАН // Архив

Препринты ИПМ им. М. В. Келдыша, 2017, 032, 21 стр. (Mi ipmp2248)

Статистическое распознавание языка текста по частоте буквосочетаний

Ю. Н. Орлов, С. А. Шилин


Аннотация: Исследуются статистические свойства текстов, написанных на языках индоевропейской семьи, с целью разработки индикаторов распознавания языка или языковой группы. В качестве индикаторов рассматриваются: показатель Херста для некоторой специальной статистики, показывающей однородность звучания текста; частоты наиболее употребляемых буквосочетаний в текстах на разных европейских языках; эталонные распределения $n$-грамм. Точность бинарного распознавания была достигнута на уровне 0,99.

Ключевые слова: частоты буквосочетаний, распознавание языка текста.

DOI: 10.20948/prepr-2017-32



© МИАН, 2024