Е. Г. Григорьева, В. А. Клячин, “Исследование статистических характеристик текста на основе графовой модели лингвистического корпуса”, Изв. Сарат. ун-та. Нов. сер. Сер.: Математика. Механика. Информатика, 2020, том 20, выпуск 1,страницы 116

Эта публикация цитируется в 2 статьях

Научный отдел
Информатика

Исследование статистических характеристик текста на основе графовой модели лингвистического корпуса

Е. Г. Григорьева^a, В. А. Клячин^ba

^a Волгоградский государственный университет, Россия, 400062, г. Волгоград, Университетский пр-т, д. 100
^b Калмыцкий государственный университет имени Б. Б. Городовикова, Россия, Республика Калмыкия, 358000, г. Элиста, ул. Пушкина, д. 11

Аннотация: Статья посвящена исследованию статистических характеристик текста, которые вычисляются на базе графовой модели представления текста из лингвистического корпуса. Во введении излагается актуальность статистического анализа текстов и приводятся некоторые задачи, решаемые с помощью такого анализа. Предлагаемая в статье графовая модель текста строится как граф, в вершинах которого расположены слова текста, а ребра графа отражают факт попадания двух слов в какую-либо часть текста, например в предложение. Для вершин и ребер графа в статье вводятся понятия веса как значения из некоторой аддитивной полугруппы. Доказываются формулы вычисления графа и его весов при конкатенации текстов. На основе предложенной модели реализуются вычисления на языке программирования Python. Для экспериментального исследования статистических характеристик выделяются 24 величины, которые выражаются через веса вершин, ребер графа, а также других характеристик графа, например степени его вершин. Надо отметить, что целью численных экспериментов является поиск характеристик текста, с помощью которых можно определять, является ли текст созданным человеком или случайно сгенерированным. В статье предлагается один из возможных таких алгоритмов, который генерирует случайный текст, используя некоторый созданный человеком другой текст в качестве шаблона. При этом в случайном тексте сохраняется последовательность чередования частей речи вспомогательного текста. Оказывается, что требуемым условиям удовлетворяет медианное значение отношения величины веса ребра графа текста к числу предложений в тексте.

Ключевые слова: текст, лингвистический корпус, граф, автоматическая обработка текста.

УДК: 519.688+004.942

Поступила в редакцию: 28.02.2019
Принята в печать: 19.05.2019

DOI: 10.18500/1816-9791-2020-20-1-116-126