RUS  ENG
Полная версия
ЖУРНАЛЫ // Информатика и её применения // Архив

Информ. и её примен., 2022, том 16, выпуск 2, страницы 52–59 (Mi ia786)

Эта публикация цитируется в 1 статье

Принципы описания показателей логико-семантических отношений и их иерархии

А. А. Дурновоa, О. Ю. Иньковаab, Н. A. Попковаa

a Федеральный исследовательский центр «Информатика и управление» Российской академии наук
b Женевский университет

Аннотация: Рассматриваются возможности аннотирования в корпусах с дискурсивной разметкой. Показано, что корпуса, созданные на основе теории риторической структуры (ТРС), содержат только аннотации отношений связности текста, или риторических отношений (РО). Корпус Пенсильванского университета PDTB аннотирует, напротив, показатели отношений, как и Надкорпусная база данных коннекторов (НБДК). Показано, что корпус RST Signaling Corpus (RST-SC), также созданный на основе ТРС, хотя и аннотирует показатели РО, но не может совместить разметку РО и их показателей в форме единой аннотации. Эту задачу решают корпус GUM и Надкорпусная база данных иерархии (НБДИ) логико-семантических отношений (ЛСО). Последняя имеет ряд преимуществ: возможность поиска, получения статистики, а также формирования двуязычных аннотаций. Это позволяет выявить как универсальные явления в дискурсивной организации текста, так и явления, специфичные для того или иного исследуемого языка.

Ключевые слова: надкорпусная база данных, аннотирование корпусов текстов, дискурсивные отношения, коннектор.

Поступила в редакцию: 07.04.2021

DOI: 10.14357/19922264220207



© МИАН, 2024