Аннотация:
Цель статьи — показать продуктивность использования параллельных текстов и их аннотирования в надкорпусной базе данных (НБД) коннекторов для извлечения знаний об альтернативных средствах выражения логико-семантических отношений (ЛСО). На примере наиболее известных дискурсивно аннотированных корпусов — Penn Discourse Treebank (PDTB), Prague Dependency Treebank (PDT) и Rhetorical Structure Theory Discourse Treebank (RST-DT) — авторы показывают, что в существующих исследованиях нет консенсуса относительно того, какие языковые средства относить к классу коннекторов (прототипических показателей ЛСО), а какие — к альтернативным средствам. В исследовании продемонстрировано, что применение сопоставительного метода и использование возможностей НБД коннекторов позволяет не только извлекать новое знание о средствах выражения ЛСО в изучаемых языках, но и создавать тезаурусы таких средств, в том числе альтернативных коннекторам. Кроме того, информация, хранящаяся в НБД, дает возможность получать новые знания о том, какие ЛСО могут быть выражены неспециализированными средствами и какова частотность использования этих средств для каждого ЛСО в каждом из изучаемых языков.
Ключевые слова:надкорпусная база данных, логико-семантические отношения, коннекторы, извлечение новых знаний, параллельные тексты.