Аннотация:
В настоящее время для задачи разрешения лексической неоднозначности наилучшие результаты на стандартных бенчмарках показывают алгоритмы, которые основаны на обучении с учителем. Однако, использование больших объемов размеченных данных для обучения таких моделей ограничивает их применение для языков с малым количеством ресурсов. Для русского языка также актуальна проблема нехватки аннотированных данных. В данной работе исследуется метод для автоматической разметки текстов, который основан на ансамбле моделей, предварительно обученных на синтетических данных. Результаты экспериментов демонстрируют, что модели, обученные на данных, размеченных предобученными моделями, показывают более высокое качество разрешения неоднозначности.
Ключевые слова:автоматическое разрешение неоднозначности, датасеты на русском языке, ELMo, BERT.