RUS  ENG
Полная версия
ЖУРНАЛЫ // Вестник Санкт-Петербургского университета. Серия 10. Прикладная математика. Информатика. Процессы управления // Архив

Вестн. С.-Петербург. ун-та. Сер. 10. Прикл. матем. Информ. Проц. упр., 2021, том 17, выпуск 4, страницы 389–396 (Mi vspui505)

Информатика

Research of features of Dostoevsky's publicistic style by using $n$-grams based on the materials of the “Time” and “Epoch” magazines

[Исследование особенностей публицистического стиля Ф. М. Достоевского с помощью $n$-грамм по материалам журналов «Время» и «Эпоха»]

R. V. Abramov, K. A. Kulakov, A. A. Lebedev, N. D. Moskin, A. A. Rogov

Petrozavodsk State University, 33, pr. Lenina, Petrozavodsk, 185910, Russian Federation

Аннотация: Работа посвящена изучению публицистического стиля Ф. М. Достоевского на материалах статей в журналах «Время» и «Эпоха» (1861–1865 гг.). Для этого были выбраны фрагменты текстов (в том числе М. М. Достоевского, Н. Н. Страхова, А. А. Головачева и др.) размером 500, 700 и 1000 слов, на которых выполнялся подсчет встречаемости би- и триграмм, представляющих собой закодированные последовательности частей речи. Далее на их основе были построены деревья решения и выполнен анализ точности распознавания текстов. Если рассмотреть классификацию на первом уровне дерева (размер фрагмента 1000), то точность в среднем была равна 87 %. Этим признаком выступает процент наличия биграммы «прилагательное — существительное». При анализе триграмм наиболее значимым признаком на первом уровне была последовательность «существительное — прилагательное — существительное». Также в статье рассмотрена задача сравнения полученных деревьев решений.

Ключевые слова: публицистический стиль, атрибуция текстов, дерево решений, $n$-грамма, Ф. М. Достоевский, сравнение деревьев, информационная система «Статистические методы для анализа литературных текстов».

УДК: 004.8

MSC: 68T50

Поступила: 25 декабря 2020 г.
Принята к печати: 13 октября 2021 г.

Язык публикации: английский

DOI: 10.21638/11701/spbu10.2021.407



© МИАН, 2024