RUS  ENG
Полная версия
ЖУРНАЛЫ // Информатика и её применения // Архив

Информ. и её примен., 2021, том 15, выпуск 2, страницы 96–103 (Mi ia734)

Эта публикация цитируется в 3 статьях

Извлечение знаний о средствах выражения логико-семантических отношений при помощи надкорпусной базы данных

А. А. Гончаров, О. Ю. Инькова

Институт проблем информатики Федерального исследовательского центра «Информатика и управление» Российской академии наук

Аннотация: Цель статьи — показать продуктивность использования параллельных текстов и их аннотирования в надкорпусной базе данных (НБД) коннекторов для извлечения знаний об альтернативных средствах выражения логико-семантических отношений (ЛСО). На примере наиболее известных дискурсивно аннотированных корпусов — Penn Discourse Treebank (PDTB), Prague Dependency Treebank (PDT) и Rhetorical Structure Theory Discourse Treebank (RST-DT) — авторы показывают, что в существующих исследованиях нет консенсуса относительно того, какие языковые средства относить к классу коннекторов (прототипических показателей ЛСО), а какие — к альтернативным средствам. В исследовании продемонстрировано, что применение сопоставительного метода и использование возможностей НБД коннекторов позволяет не только извлекать новое знание о средствах выражения ЛСО в изучаемых языках, но и создавать тезаурусы таких средств, в том числе альтернативных коннекторам. Кроме того, информация, хранящаяся в НБД, дает возможность получать новые знания о том, какие ЛСО могут быть выражены неспециализированными средствами и какова частотность использования этих средств для каждого ЛСО в каждом из изучаемых языков.

Ключевые слова: надкорпусная база данных, логико-семантические отношения, коннекторы, извлечение новых знаний, параллельные тексты.

Поступила в редакцию: 06.04.2021

DOI: 10.14357/19922264210214



© МИАН, 2024