А. С. Большина, “Создание псевдоаннотированного обучающего корпуса для задачи разрешения лексической неоднозначности с помощью ансамбля моделей”, Интеллектуальные системы. Теория и приложения, 2022, том 26, выпуск 1,страницы 185

Часть 4. Обработка естественного языка

Создание псевдоаннотированного обучающего корпуса для задачи разрешения лексической неоднозначности с помощью ансамбля моделей

А. С. Большина

филологический ф-т МГУ

Аннотация: В настоящее время для задачи разрешения лексической неоднозначности наилучшие результаты на стандартных бенчмарках показывают алгоритмы, которые основаны на обучении с учителем. Однако, использование больших объемов размеченных данных для обучения таких моделей ограничивает их применение для языков с малым количеством ресурсов. Для русского языка также актуальна проблема нехватки аннотированных данных. В данной работе исследуется метод для автоматической разметки текстов, который основан на ансамбле моделей, предварительно обученных на синтетических данных. Результаты экспериментов демонстрируют, что модели, обученные на данных, размеченных предобученными моделями, показывают более высокое качество разрешения неоднозначности.

Ключевые слова: автоматическое разрешение неоднозначности, датасеты на русском языке, ELMo, BERT.