Аннотация:
В этой работе мы рассматриваем задачу “делемматизации на уровне предложений”, задачу порождения грамматически корректных предложений по лемматизированным предложениям. Эта задача обычно легко решается людьми. Мы рассматриваем эту постановку как задачу машинного перевода и в первую очередь применяем для решения этой задачи sequence-to-sequence модели на текстах русскоязычной Wikipedia, количественно оцениваем эффект различных тренировочных наборов данных и достигаем уровня метрики BLEU в 67,3 при использовании самого большого из доступных тренировочных наборов. Мы обсуждаем предварительные результаты и недостатки традиционных методов оценки моделей машинного перевода для этой задачи и предлагаем направления для дальнейших исследований. Библ. – 15 назв.
Ключевые слова:глубокое обучение, обработка естественных языков, морфологическое согласование, машинный перевод.