Н. Д. Москин, А. А. Рогов, Р. В. Воронов, “Обобщенная контекстно-зависимая теоретико-графовая модель фольклорных и литературных текстов”, Труды ИСП РАН, 2022, том 34, выпуск 1,страницы 73

Обобщенная контекстно-зависимая теоретико-графовая модель фольклорных и литературных текстов

Н. Д. Москин, А. А. Рогов, Р. В. Воронов

Петрозаводский государственный университет

Аннотация: Одной из проблем при автоматической обработке текстов является их атрибуция. Под этим термином понимают установление атрибутов текстового произведения (определение авторства, времени создания, места записи и др.). В статье представлена обобщенная контекстно-зависимая теоретико-графовая модель, предназначенная для анализа фольклорных и литературных текстов. Минимальной структурной единицей модели (примитивом) является слово. Множества слов объединяются в вершины, причем одно и то же слово может иметь отношение к разным вершинам. Ребра и графовые подструктуры отражают лексические, синтаксические и семантические связи текста. Характеристиками модели являются ее нечеткость, иерархичность и темпоральность. В качестве примеров приводятся иерархическая теоретико-графовая модель составляющих (на примере литературных произведений А. С. Пушкина), темпоральная теоретико-графовая модель сказочного сюжета (на примере русских волшебных сказок А. М. Афанасьева) и нечеткая теоретико-графовая модель «сильных» связей грамматических классов (на примере анонимных статей из дореволюционных журналов «Время», «Эпоха» и еженедельника «Гражданин», которые редактировал Ф. М. Достоевский). Модель строится таким образом, чтобы в дальнейшем ее можно было исследовать с помощью методов искусственного интеллекта (например, деревьев решений или нейронных сетей). Для этой цели в информационной системе «Фольклор» был разработан формат для хранения подобных данных, а также реализованы процедуры для ввода, редактирования и анализа текстов и их теоретико-графовых моделей.

Ключевые слова: теоретико-графовая модель, атрибуция текстов, лексика, синтаксис, семантика, нечеткий граф, иерархический граф, темпоральный граф, информационная система «Фольклор».

DOI: 10.15514/ISPRAS-2022-34(1)-6