RUS  ENG
Полная версия
ЖУРНАЛЫ // Труды института системного программирования РАН // Архив

Труды ИСП РАН, 2021, том 33, выпуск 3, страницы 199–222 (Mi tisp608)

Эта публикация цитируется в 2 статьях

Применение языковых моделей в задаче извлечения оценочных отношений

Н. Л. Русначенко

Московский государственный технический университет им. Н.Э. Баумана

Аннотация: Объемные тексты могут содержать источник и взаимосвязанной информации различных типов, передаваемых посредством отношений, некоторые из которых могут быть оценочными. Проведение анализа так их текстов требует установление подобных связей, определении их участников: события, сущности, и т.д. В данной работе исследуется применение языковых моделей BERT в задаче извлечения оценочных отношений. Для произвольного документа и списка размеченных в нем именованных сущностей, такая задача предполагает составление списка оценочных отношений между ними. Эффективность применения языковых моделей напрямую зависит от объема обучающих данных. Для увеличения объема обучающего множества применяется подход опосредованного обучения. Такое обучение подразумевает применение алгоритма автоматической разметки оценочных отношений из сторонних источников. Предложенный подход разметки оценочных отношений основан на двухэтапном применении FRAME-BASED фактора в анализе новостных документов, для: (1) составления списка оценочных пар (PAIR-BASED), (2) разметки документов с использованием PAIR-BASED и FRAME-BASED факторов. Полученная на основе такого алгоритма коллекция получила название RuAttitudes2017. Для проведения экспериментов с моделями использовался корпус новостных текстов на русском язык е RuSentRel-1.0. Применение опосредованного обучения с использованием коллекции RuAttitudes2017 повысило качество моделей на 10-13% по метрике F1, и на 25% при сравнении с наилучшими результатами моделей на основе нейронных сетей.

Ключевые слова: анализ тональности, извлечение отношений, опосредованное обучение, нейронные сети, языковые модели.

DOI: 10.15514/ISPRAS-2021-33(3)-14



© МИАН, 2024