Семинары: Аня Шатских, Автоматическая морфологическая классификация для осетинского языка

СЕМИНАРЫ


Некоторые применения математических методов в языкознании 28 мая 2026 г. 18:00, г. Москва, МИАН, ауд. 104

Автоматическая морфологическая классификация для осетинского языка Аня Шатских Московский государственный университет имени М.В. Ломоносова, филологический факультет
Аннотация: Доклад посвящён созданию датасета и нейросетевой модели для автоматической морфологической классификации в осетинском языке. Осетинский язык – иранский язык индоевропейской семьи, распространённый на Северном Кавказе. Этот язык является родным для по меньшей мере 550 тыс. человек и обладает долгой письменной традицией: так, литературный корпус осетинского языка содержит около 12 млн словоупотреблений. Тем не менее, до недавнего времени для осетинского языка не существовало инструментов контекстной морфологической классификации. Эта задача состоит в определении для словоформы её части речи и грамматических признаков (таких как число или падеж) с учётом контекста и является незаменимым уровнем разметки языковых корпусов. В докладе будет описано создание обучающего корпуса с морфологической аннотацией в системе Universal Dependencies версии 2 (Nivre и др., 2020). Будут рассмотрены вызовы, которые типологические особенности осетинского ставят перед универсальными конвенциями аннотации, и расширения системы UD, принятые в ответ на них. Наконец, будет представлена первая в истории языковая модель архитектуры BERT (Devlin и др., 2019) для осетинского языка и морфологический классификатор на её основе, а также результаты экспериментов, проведённых в ходе создания и улучшения этих моделей. Список литературы Devlin, Jacob и др., BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, 2019, arXiv: 1810.04805v2 Nivre, Joakim и др., Universal Dependencies v2: An Evergrowing Multilingual Treebank Collection, 2020, arXiv: 2004.10643