RUS  ENG
Полная версия
ЖУРНАЛЫ // Моделирование и анализ информационных систем // Архив

Модел. и анализ информ. систем, 2022, том 29, номер 2, страницы 134–147 (Mi mais772)

Эта публикация цитируется в 1 статье

Theory of data

Рекурсивный алгоритм определения тональности предложений на русском языке

А. Ю. Полетаев, И. В. Парамонов

Ярославский государственный университет им. П. Г. Демидова, ул. Советская, д. 14, г. Ярославль, 150003 Россия

Аннотация: В статье рассматривается задача определения тональности русскоязычных предложений. Тональность понимается как отношение автора к теме предложения. В данном исследовании учитываются три варианта тональности — положительная, отрицательная и нейтральная, т. е. решается задача классификации с тремя классами.
В статье предлагается алгоритм определения тональности предложения на русском языке, основанный на семантических правилах. В основе алгоритма лежит предположение о том, что тональность фразы может быть определена на основе тональностей её составляющих с помощью рекурсивного применения семантических правил к составным частям фразы, представленным в виде синтаксического дерева. Набор семантических правил, используемых алгоритмом, был составлен в результате обсуждений с экспертами-филологами. Эксперименты показали, что предложенный рекурсивный алгоритм даёт несколько худший результат на корпусе отзывов на отели по сравнению с подходом, основанным на правилах, ранее адаптированным авторами для русского языка: взвешенная $F_1$-мера составила $0.75$ и $0.78$ соответственно. Для оценки качества работы алгоритма на сложных предложениях был создан корпус OpenSentimentCorpus, основанный на OpenCorpora — открытом корпусе предложений из новостных статей и публицистики. На корпусе OpenSentimentCorpus рекурсивный алгоритм работает лучше, чем адаптированный подход: $F_1$-мера составила $0.70$ и $0.63$ соответственно. Таким образом, предложенный в данной работе алгоритм имеет преимущество в случае более сложных предложений с более тонкими способами выражения тональности.

Ключевые слова: анализ тональности, определение тональности, семантические правила, тональный корпус.

УДК: 004.912

MSC: 68T50

Поступила в редакцию: 30.04.2022
Исправленный вариант: 22.05.2022
Принята в печать: 25.05.2022

DOI: 10.18255/1818-1015-2022-2-134-147



© МИАН, 2024