А. С. Большина, Н. В. Лукашевич, “Разрешение неоднозначности на основе псевдоаннотированной коллекции”, Труды ИСП РАН, 2021, том 33, выпуск 6,страницы 193

Эта публикация цитируется в 1 статье

Разрешение неоднозначности на основе псевдоаннотированной коллекции

А. С. Большина^a, Н. В. Лукашевич^b

^a Московский государственный университет имени М. В. Ломоносова
^b Научно-исследовательский вычислительный центр МГУ

Аннотация: Передовые системы разрешения неоднозначности основаны на обучении с учителем, однако для создания таких моделей требуются большие объемы размеченных данных, которые отсутствуют для большинства языков с ограниченными ресурсами. Для того, чтобы решить проблему недостатка аннотированных данных в русском языке, в данной статье предлагается подход для автоматической разметки значений многозначных слов с использованием ансамбля моделей, базирующихся на слабо контролируемом обучении. Для первичной разметки данных использовался автоматический метод, основанный на концепте однозначных родственных слов. С помощью этих синтетических данных были обучены три модели для разрешения неоднозначности, которые затем применялись в ансамбле для получения значений ключевых многозначных слов. Проведенные эксперименты показали, что модели, обученные на данных, размеченных предобученными моделями, демонстрируют более высокое качество разрешения неоднозначности. Помимо этого, в статье изучается влияние различных подходов к аугментации текстовых данных на качество предсказаний.

Ключевые слова: автоматическое разрешение неоднозначности, датасеты на русском языке, RuWordNet.

DOI: 10.15514/ISPRAS-2021-33(6)-13