Аннотация:
Рассматриваются возможности аннотирования в корпусах с дискурсивной разметкой. Показано, что корпуса, созданные на основе теории риторической структуры (ТРС), содержат только аннотации отношений связности текста, или риторических отношений (РО). Корпус Пенсильванского университета PDTB аннотирует, напротив, показатели отношений, как и Надкорпусная база данных коннекторов (НБДК). Показано, что корпус RST Signaling Corpus (RST-SC), также созданный на основе ТРС, хотя и аннотирует показатели РО, но не может совместить разметку РО и их показателей в форме единой аннотации. Эту задачу решают корпус GUM и Надкорпусная база данных иерархии (НБДИ) логико-семантических отношений (ЛСО). Последняя имеет ряд преимуществ: возможность поиска, получения статистики, а также формирования двуязычных аннотаций. Это позволяет выявить как универсальные явления в дискурсивной организации текста, так и явления, специфичные для того или иного исследуемого языка.
Ключевые слова:надкорпусная база данных, аннотирование корпусов текстов, дискурсивные отношения, коннектор.