Аннотация:
Данная работа посвящена актуальным проблемам создания многоязычного лингвистического ресурса семантико-синтаксических представлений для систем машинного перевода и извлечения знаний из естественно-языковых текстов. Целью наших исследований является построение целостной лингвистической модели, где используются грамматические правила, статистические методы и механизмы машинного обучения для извлечения новых структурно-синтаксических правил из текстовых корпусов и для разрешения неоднозначности. При формализации лингвистических знаний мы используем аппарат когнитивной трансферной грамматики (КГТ), являющейся семантически мотивированным вариантом вершинной грамматики. Для подготовки обучающих компонентов систем и получения статистических данных о языковых структурах создается многоязычный лингвистический ресурс ИНТЕРТЕКСТ, представляющий собой банк синтаксических деревьев (Treebank) и корпус семантически выровненных параллельных текстов на русском, английском, французском и немецком языках.