Аннотация:
Рассматривается надкорпусная база данных (НБД), разработанная на
основе корпуса параллельных текстов для описания русских коннекторов и их
переводов на французский и другие языки. В рамках данной НБД аннотируется
внутренняя структура и семантика коннекторов русского языка, а также их
переводных соответствий на других языках. Описание семантики коннекторов
подразумевает описание соответствующих дискурсивных отношений между
соединяемыми ими фрагментами текста. Используемый в НБД подход
к описанию дискурсивных выражений, передаваемых коннекторами,
сравнивается с новейшими существующими подходами к аннотации
дискурсивных отношений: рассматривается аннотированный корпус
дискурсивных отношений Penn Discourse Treebank (PDTB) и проект стандарта
по аннотации дискурсивных отношений ISO
24617-8. Отмечается, что PDTB и ISO 24617-8, в отличие от НБД, позволяют
аннотировать как эксплицитные (выраженные коннекторами и другими
языковыми единицами), так и имплицитные дискурсивные отношения. Кроме
этого, в рамках данных подходов имеется возможность аннотировать аргументы
дискурсивных отношений, включая их источники, типы и роли (для
ассиметричных отношений). С другой стороны, преимущество НБД состоит
в том, что она позволяет одновременно аннотировать коннекторы и их
переводные соответствия в параллельных корпусах, что открывает для
исследователей новые возможности в области лингвистического
контрастивного анализа. В то время как в рамках других подходов для
аннотации дискурсивных коннекторов используется формат XML, НБД
представляет собой реляционную базу данных, что повышает эффективность
системы при работе с кросслингвистическими объектами и доступность для
пользователей. Также рассматривается теоретическая и практическая
значимость семантической аннотации коннекторов и выражаемых ими
дискурсивных отношений.
Ключевые слова:дискурсивные отношения; коннекторы; корпусная лингвистика;
параллельные корпуса; надкорпусные базы данных.