|
|
| СЕМИНАРЫ |
|
Некоторые применения математических методов в языкознании
|
|||
|
|
|||
|
Автоматическая морфологическая классификация для осетинского языка Аня Шатских Московский государственный университет имени М.В. Ломоносова, филологический факультет |
|||
|
Аннотация: Доклад посвящён созданию датасета и нейросетевой модели для автоматической морфологической классификации в осетинском языке. Осетинский язык – иранский язык индоевропейской семьи, распространённый на Северном Кавказе. Этот язык является родным для по меньшей мере 550 тыс. человек и обладает долгой письменной традицией: так, литературный корпус осетинского языка содержит около 12 млн словоупотреблений. Тем не менее, до недавнего времени для осетинского языка не существовало инструментов контекстной морфологической классификации. Эта задача состоит в определении для словоформы её части речи и грамматических признаков (таких как число или падеж) с учётом контекста и является незаменимым уровнем разметки языковых корпусов. В докладе будет описано создание обучающего корпуса с морфологической аннотацией в системе Universal Dependencies версии 2 (Nivre и др., 2020). Будут рассмотрены вызовы, которые типологические особенности осетинского ставят перед универсальными конвенциями аннотации, и расширения системы UD, принятые в ответ на них. Наконец, будет представлена первая в истории языковая модель архитектуры BERT (Devlin и др., 2019) для осетинского языка и морфологический классификатор на её основе, а также результаты экспериментов, проведённых в ходе создания и улучшения этих моделей. Список литературы
|
|||