Аннотация:
Статья посвящена исследованию статистических характеристик текста, которые вычисляются на базе графовой модели представления текста из лингвистического корпуса. Во введении излагается актуальность статистического анализа текстов и приводятся некоторые задачи, решаемые с помощью такого анализа. Предлагаемая в статье графовая модель текста строится как граф, в вершинах которого расположены слова текста, а ребра графа отражают факт попадания двух слов в какую-либо часть текста, например в предложение. Для вершин и ребер графа в статье вводятся понятия веса как значения из некоторой аддитивной полугруппы. Доказываются формулы вычисления графа и его весов при конкатенации текстов. На основе предложенной модели реализуются вычисления на языке программирования Python. Для экспериментального исследования статистических характеристик выделяются 24 величины, которые выражаются через веса вершин, ребер графа, а также других характеристик графа, например степени его вершин. Надо отметить, что целью численных экспериментов является поиск характеристик текста, с помощью которых можно определять, является ли текст созданным человеком или случайно сгенерированным. В статье предлагается один из возможных таких алгоритмов, который генерирует случайный текст, используя некоторый созданный человеком другой текст в качестве шаблона. При этом в случайном тексте сохраняется последовательность чередования частей речи вспомогательного текста. Оказывается, что требуемым условиям удовлетворяет медианное значение отношения величины веса ребра графа текста к числу предложений в тексте.