Аннотация:
Представлен новый информационно-компьютерный метод описания структуры неоднословных коннекторов, реализованный в рамках Надкорпусной базы данных (НБД) коннекторов. На сегодняшний день структура коннекторов мало изучена, отсутствуют критерии для определения линейных границ коннекторов и их компонентов. В основе предлагаемого метода лежит когнитивно-семантический подход, при котором неоднословные коннекторы считаются более или менее свободными сочетаниями. При аннотировании коннекторов предлагается использовать двухуровневую фасетную классификацию, где аннотированию подлежат, с одной стороны, употребления коннекторов в тексте (контекстное аннотирование), с другой стороны — собственно внутренняя структура коннекторов (структурное аннотирование). Структурное аннотирование осуществляется по двум основаниям: определяются структурный тип и структурные составляющие коннекторов. Предлагаемая схема аннотации позволяет реализовать систему «перекрестных» кластеров, значительно расширяющую поисковые и статистические возможности НБД коннекторов. Кроме того, данный метод позволяет избегать субъективности при аннотировании неоднословных коннекторов в электронных лингвистических корпусах и заполнять лакуны в лингвистических знаниях: например, получать новые данные о сочетаемостных возможностях коннекторов русского языка.
Ключевые слова:надкорпусные базы данных, компьютерная обработка естественного языка, коннекторы, структура языковых единиц, вариативность языковых единиц, корпусная лингвистика, аннотирование, фасетная классификация.