Аннотация:
Рассматриваются используемые в контрастивных лингвистических исследованиях базы данных (БД), получившие название «надкорпусных». Они формируются в результате обработки текстов, хранящихся в двуязычных параллельных подкорпусах Национального корпуса русского языка. В них каждому тексту на русском языке соответствует один или несколько его переводов на другой язык, а каждому тексту на иностранном языке — один его перевод на русский язык. Каждый текст на языке оригинала и его переводы выровнены по предложениям. Надкорпусные БД (НБД) представляют собой новый вид лингвистических ресурсов, которые предназначены для целенаправленного извлечения новых знаний о широком спектре языковых единиц (ЯЕ). Эти знания необходимы для повышения качества машинного перевода, актуализации моно- и двуязычных грамматик, а также для обновления многообразных образовательных курсов по лингвистике, теории и практике перевода. В статье дается описание концепции формирования НБД и примера реализации такой базы для представления знаний о коннекторах русского языка и об их переводах на французский язык.
Ключевые слова:кроссязыковые знания; коннекторы русского языка; представление знаний о коннекторах; надкорпусные базы данных.