Эта публикация цитируется в
6 статьях
Количественный анализ результатов машинного перевода с использованием надкорпусных баз данных
Н. В. Бунтманa,
А. А. Гончаровb,
И. М. Зацманb,
В. А. Нуриевb a Факультет
иностранных языков и регионоведения, Московский государственный университет им.\ М. В. Ломоносова
b Институт проблем информатики Федерального исследовательского центра «Информатика и управление» Российской академии наук
Аннотация:
Рассматривается информационная технология, которая поддерживает экспертизу результатов машинного перевода литературных текстов. Технология разрабатывалась и апробировалась на примерах переводов коннекторов при следующих условиях. Во-первых, объектом исследования выступают переводы предложений как с однословными (например,
хотя,
а,
кстати и т. д.), так и с неоднословными коннекторами (например,
да еще,
но зато,
и вообще,
и притом,
хотя и и т. д.). Во-вторых, между словами, входящими в состав коннекторов, может быть фрагмент текста, например:
если (расстояние)
так,
когда (расстояние)
то,
не только (расстояние)
но и,
так как (расстояние)
то и т. д. Технология поддержки экспертизы результатов машинного перевода охватывает три основные стадии: (1) лингвистическое аннотирование результатов машинного перевода коннекторов и их контекстов с использованием надкорпусных баз данных (НБД); (2) количественная обработка результатов аннотирования; (3) лингвистический анализ сформированных аннотаций и полученных числовых данных. Статья посвящена описанию технологических аспектов поддержки экспертизы, относящихся к ее первым двум стадиям. Экспериментальный материал включает примеры только с неоднословными коннекторами, части которых могут располагаться как дистантно, так и контактно.
Ключевые слова:
надкорпусная база данных, машинный перевод, классификация ошибок, технология поддержки экспертизы, лингвистическое аннотирование, корпусная лингвистика, коннекторы.
Поступила в редакцию: 15.10.2018
DOI:
10.14357/19922264180414