RUS  ENG
Полная версия
ЖУРНАЛЫ // Моделирование и анализ информационных систем // Архив

Модел. и анализ информ. систем, 2022, том 29, номер 2, страницы 116–133 (Mi mais771)

Theory of data

Нейросетевая классификация русскоязычных предложений по тональности на четыре класса

М. А. Костерин, И. В. Парамонов

Ярославский государственный университет им. П. Г. Демидова, ул. Советская, д. 14, г. Ярославль, 150003 Россия

Аннотация: Работа посвящена классификации русскоязычных предложений по тональности на четыре класса: положительный, отрицательный, смешанный и нейтральный. В отличие от большинства современных работ в этой области, вводится в рассмотрение класс предложений смешанной тональности. Предложения со смешанной тональностью содержат в себе одновременно и положительно, и отрицательно окрашенную речь.
Для решения данной задачи были применены: нейронная сеть LSTM с механизмом внимания, нейронная сеть GRU с двойным механизмом внимания, нейронная сеть BERT с несколькими модификациями выходного слоя для обеспечения классификации на четыре класса. Эксперименты по сравнению эффективности различных нейронных сетей производилось на трёх корпусах русскоязычных предложений. Два корпуса составлены из пользовательских отзывов: один с отзывами на одежду, другой с отзывами на отели. Третий корпус составлен из новостных статей российских изданий. Лучшая средняя взвешенная F-мера в экспериментах, составляющая 0.90, была достигнута моделью BERT на корпусе отзывов на одежду. На этом же корпусе были отмечены лучшие F-меры для положительных и отрицательных предложений, составившие 0.92 и 0.93 соответственно. Наилучшие показатели классификации нейтральных и смешанных предложений достигаются на корпусе новостных статей. Для них F-мера составляет 0.72 и 0.58 соответственно. В результате экспериментов было продемонстрировано значительное превосходство трансферных нейронных сетей BERT над нейронными сетями предыдущего поколения LSTM и GRU, наиболее ярко выражающееся при классификации текстов со слабо выраженной эмоциональной окраской. Анализ ошибок показал, что на «смежные» классы тональности (положительный/отрицательный и смешанный) приходится большая доля ошибок при классификации с помощью BERT, чем в случае «противоположных» классов (положительный и отрицательный, нейтральный и смешанный).

Ключевые слова: анализ тональности, нейросетевой классификатор, BERT, обработка естественного языка.

УДК: 004.912

MSC: 68T50

Поступила в редакцию: 28.04.2022
Исправленный вариант: 23.05.2022
Принята в печать: 25.05.2022

DOI: 10.18255/1818-1015-2022-2-116-133



© МИАН, 2024