RUS  ENG
Полная версия
ЖУРНАЛЫ // Записки научных семинаров ПОМИ // Архив

Зап. научн. сем. ПОМИ, 2024, том 540, страницы 252–275 (Mi znsl7554)

Применение синтаксических парсеров для турецкого языка в задаче разметки кыргызских синтаксических корпусов

А. Алексеевabcd, А. Тиллабаеваe, Г. Дж. Кабаеваb, С. И. Николенкоaf

a Санкт-Петербургское отделение Математического института им. В. А. Стеклова РАН, 191023, наб.р. Фонтанки, 27, Санкт-Петербург, Россия
b КГТУ им. И. Раззакова, 720044, пр. Ч. Айтматова, 66, Бишкек, Кыргызстан (Киргизия)
c КФУ, Хим. институт им. А.М. Бутлерова, 420008, ул. Кремлёвская, 18, Казань, РТ, Россия
d СПбГУ, Факультет МКН, 199178, 14-ая линия ВО, 29, Санкт-Петербург, Россия
e Бишкек, Кыргызстан (Киргизия)
f Университет ИТМО, Санкт-Петербург, Россия

Аннотация: Кыргызский (киргизский) язык, как один из малоресурсных, требует значительных усилий для создания качественных синтаксических корпусов. В данной работе предложен вариант подхода, упрощающего процесс разработки синтаксического корпуса для кыргызского языка. В настоящей работе представлен инструмент для переноса синтаксической разметки с турецкого языка на кыргызский, основанный на методе машинного перевода трибанков. Эффективность предложенного инструмента была оценена с использованием трибанка TueCL. Результаты исследования показывают, что данный подход обеспечивает более высокую точность синтаксической разметки по сравнению с моноязычной моделью, обученной на кыргызском трибанке KTMU. Кроме того, в работе предлагается метод оценки сложности ручного аннотирования полученных синтаксических деревьев. Библ. – 45 назв.

Ключевые слова: грамматика зависимостей, обработка естественного языка, языки с малым количеством ресурсов, машинный перевод, обработка кыргызского языка.

Поступило: 15.11.2024



© МИАН, 2025