RUS  ENG
Полная версия
ЖУРНАЛЫ // Информатика и её применения // Архив

Информ. и её примен., 2017, том 11, выпуск 4, страницы 118–125 (Mi ia509)

Эта публикация цитируется в 4 статьях

Approaches to annotation of discourse relations in linguistic corpora

[Подходы к аннотации дискурсивных отношений в лингвистических корпусах]

M. G. Kruzhkov

Institute of Informatics Problems, Federal Research Center “Computer Science and Control” of the Russian Academy of Sciences, 44-2 Vavilov Str., Moscow 119333, Russian Federation

Аннотация: Рассматривается надкорпусная база данных (НБД), разработанная на основе корпуса параллельных текстов для описания русских коннекторов и их переводов на французский и другие языки. В рамках данной НБД аннотируется внутренняя структура и семантика коннекторов русского языка, а также их переводных соответствий на других языках. Описание семантики коннекторов подразумевает описание соответствующих дискурсивных отношений между соединяемыми ими фрагментами текста. Используемый в НБД подход к описанию дискурсивных выражений, передаваемых коннекторами, сравнивается с новейшими существующими подходами к аннотации дискурсивных отношений: рассматривается аннотированный корпус дискурсивных отношений Penn Discourse Treebank (PDTB) и проект стандарта по аннотации дискурсивных отношений ISO 24617-8. Отмечается, что PDTB и ISO 24617-8, в отличие от НБД, позволяют аннотировать как эксплицитные (выраженные коннекторами и другими языковыми единицами), так и имплицитные дискурсивные отношения. Кроме этого, в рамках данных подходов имеется возможность аннотировать аргументы дискурсивных отношений, включая их источники, типы и роли (для ассиметричных отношений). С другой стороны, преимущество НБД состоит в том, что она позволяет одновременно аннотировать коннекторы и их переводные соответствия в параллельных корпусах, что открывает для исследователей новые возможности в области лингвистического контрастивного анализа. В то время как в рамках других подходов для аннотации дискурсивных коннекторов используется формат XML, НБД представляет собой реляционную базу данных, что повышает эффективность системы при работе с кросслингвистическими объектами и доступность для пользователей. Также рассматривается теоретическая и практическая значимость семантической аннотации коннекторов и выражаемых ими дискурсивных отношений.

Ключевые слова: дискурсивные отношения; коннекторы; корпусная лингвистика; параллельные корпуса; надкорпусные базы данных.

Поступила в редакцию: 07.09.2017

Язык публикации: английский

DOI: 10.14357/19922264170415



Реферативные базы данных:


© МИАН, 2024