RUS  ENG
Полная версия
СЕМИНАРЫ



Автоматическая морфологическая классификация для осетинского языка

Аня Шатских

Московский государственный университет имени М.В. Ломоносова, филологический факультет

Аннотация: Доклад посвящён созданию датасета и нейросетевой модели для автоматической морфологической классификации в осетинском языке. Осетинский язык – иранский язык индоевропейской семьи, распространённый на Северном Кавказе. Этот язык является родным для по меньшей мере 550 тыс. человек и обладает долгой письменной традицией: так, литературный корпус осетинского языка содержит около 12 млн словоупотреблений. Тем не менее, до недавнего времени для осетинского языка не существовало инструментов контекстной морфологической классификации. Эта задача состоит в определении для словоформы её части речи и грамматических признаков (таких как число или падеж) с учётом контекста и является незаменимым уровнем разметки языковых корпусов.
В докладе будет описано создание обучающего корпуса с морфологической аннотацией в системе Universal Dependencies версии 2 (Nivre и др., 2020). Будут рассмотрены вызовы, которые типологические особенности осетинского ставят перед универсальными конвенциями аннотации, и расширения системы UD, принятые в ответ на них. Наконец, будет представлена первая в истории языковая модель архитектуры BERT (Devlin и др., 2019) для осетинского языка и морфологический классификатор на её основе, а также результаты экспериментов, проведённых в ходе создания и улучшения этих моделей.

Список литературы
  1. Devlin, Jacob и др., BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, 2019, arXiv: 1810.04805v2
  2. Nivre, Joakim и др., Universal Dependencies v2: An Evergrowing Multilingual Treebank Collection, 2020, arXiv: 2004.10643


© МИАН, 2026