A. M. Alekseev, S. I. Nikolenko, “Recovering word forms by context for morphologically rich languages”, Зап. научн. сем. ПОМИ, 2021, том 499,страницы 129

II. Информатика

Recovering word forms by context for morphologically rich languages

[Восстановление словоформ по контексту для морфологически богатых языков]

A. M. Alekseev^a, S. I. Nikolenko^ab

^a St. Petersburg Department of Steklov Institute of Mathematics, St. Petersburg, Russia
^b St. Petersburg State University, 7/9 Universitetskaya nab., St. Petersburg, 199034 Russia

Аннотация: В этой работе мы рассматриваем задачу “делемматизации на уровне предложений”, задачу порождения грамматически корректных предложений по лемматизированным предложениям. Эта задача обычно легко решается людьми. Мы рассматриваем эту постановку как задачу машинного перевода и в первую очередь применяем для решения этой задачи sequence-to-sequence модели на текстах русскоязычной Wikipedia, количественно оцениваем эффект различных тренировочных наборов данных и достигаем уровня метрики BLEU в 67,3 при использовании самого большого из доступных тренировочных наборов. Мы обсуждаем предварительные результаты и недостатки традиционных методов оценки моделей машинного перевода для этой задачи и предлагаем направления для дальнейших исследований. Библ. – 15 назв.

Ключевые слова: глубокое обучение, обработка естественных языков, морфологическое согласование, машинный перевод.

УДК: 004.85

Поступило: 02.10.2020

Язык публикации: английский