RUS  ENG
Полная версия
ЖУРНАЛЫ // Системы и средства информатики // Архив

Системы и средства информ., 2018, том 28, выпуск 4, страницы 168–181 (Mi ssi616)

Эта публикация цитируется в 2 статьях

Метод описания структуры неоднословных коннекторов в надкорпусных базах данных

О. Ю. Инькова, М. Г. Кружков

Институт проблем информатики Федерального исследовательского центра «Информатика и управление» Российской академии наук

Аннотация: Представлен новый информационно-компьютерный метод описания структуры неоднословных коннекторов, реализованный в рамках Надкорпусной базы данных (НБД) коннекторов. На сегодняшний день структура коннекторов мало изучена, отсутствуют критерии для определения линейных границ коннекторов и их компонентов. В основе предлагаемого метода лежит когнитивно-семантический подход, при котором неоднословные коннекторы считаются более или менее свободными сочетаниями. При аннотировании коннекторов предлагается использовать двухуровневую фасетную классификацию, где аннотированию подлежат, с одной стороны, употребления коннекторов в тексте (контекстное аннотирование), с другой стороны — собственно внутренняя структура коннекторов (структурное аннотирование). Структурное аннотирование осуществляется по двум основаниям: определяются структурный тип и структурные составляющие коннекторов. Предлагаемая схема аннотации позволяет реализовать систему «перекрестных» кластеров, значительно расширяющую поисковые и статистические возможности НБД коннекторов. Кроме того, данный метод позволяет избегать субъективности при аннотировании неоднословных коннекторов в электронных лингвистических корпусах и заполнять лакуны в лингвистических знаниях: например, получать новые данные о сочетаемостных возможностях коннекторов русского языка.

Ключевые слова: надкорпусные базы данных, компьютерная обработка естественного языка, коннекторы, структура языковых единиц, вариативность языковых единиц, корпусная лингвистика, аннотирование, фасетная классификация.

Поступила в редакцию: 05.09.2018

DOI: 10.14357/08696527180416



Реферативные базы данных:


© МИАН, 2024