Аннотация:
Исследуются статистические свойства текстов, написанных на языках индоевропейской семьи, с целью разработки индикаторов распознавания языка или языковой группы. В качестве индикаторов рассматриваются: показатель Херста для некоторой специальной статистики, показывающей однородность звучания текста; частоты наиболее употребляемых буквосочетаний в текстах на разных европейских языках; эталонные распределения $n$-грамм. Точность бинарного распознавания была достигнута на уровне 0,99.
Ключевые слова:частоты буквосочетаний, распознавание языка текста.