RUS  ENG
Полная версия
ЖУРНАЛЫ // Системы и средства информатики // Архив

Системы и средства информ., 2009, выпуск 19, страницы 119–141 (Mi ssi167)

Проектирование многоязычного лингвистического ресурса для систем машинного перевода и обработки знаний

Е. Б. Козеренко, Н. В. Лунева, Ю. И. Морозова, П. В. Ермаков


Аннотация: Данная работа посвящена актуальным проблемам создания многоязычного лингвистического ресурса семантико-синтаксических представлений для систем машинного перевода и извлечения знаний из естественно-языковых текстов. Целью наших исследований является построение целостной лингвистической модели, где используются грамматические правила, статистические методы и механизмы машинного обучения для извлечения новых структурно-синтаксических правил из текстовых корпусов и для разрешения неоднозначности. При формализации лингвистических знаний мы используем аппарат когнитивной трансферной грамматики (КГТ), являющейся семантически мотивированным вариантом вершинной грамматики. Для подготовки обучающих компонентов систем и получения статистических данных о языковых структурах создается многоязычный лингвистический ресурс ИНТЕРТЕКСТ, представляющий собой банк синтаксических деревьев (Treebank) и корпус семантически выровненных параллельных текстов на русском, английском, французском и немецком языках.

УДК: 004.052.2



© МИАН, 2024