Ю. Н. Орлов, С. А. Шилин, “Статистическое распознавание языка текста по частоте буквосочетаний”, Препринты ИПМ им. М. В. Келдыша, 2017,032, 21 стр.

Статистическое распознавание языка текста по частоте буквосочетаний

Ю. Н. Орлов, С. А. Шилин

Аннотация: Исследуются статистические свойства текстов, написанных на языках индоевропейской семьи, с целью разработки индикаторов распознавания языка или языковой группы. В качестве индикаторов рассматриваются: показатель Херста для некоторой специальной статистики, показывающей однородность звучания текста; частоты наиболее употребляемых буквосочетаний в текстах на разных европейских языках; эталонные распределения $n$-грамм. Точность бинарного распознавания была достигнута на уровне 0,99.

Ключевые слова: частоты буквосочетаний, распознавание языка текста.

DOI: 10.20948/prepr-2017-32