RUS  ENG
Полная версия
ЖУРНАЛЫ // Программные системы: теория и приложения // Архив

Программные системы: теория и приложения, 2019, том 10, выпуск 4, страницы 181–199 (Mi ps358)

Эта публикация цитируется в 3 статьях

Искусственный интеллект, интеллектуальные системы, нейронные сети

PaRuS — синтаксически аннотированный корпус русского языка

Н. А. Власова, И. В. Трофимов, Ю. П. Сердюк, Е. А. Сулейманова, И. Н. Воздвиженский

Институт программных систем им. А. К. Айламазяна РАН

Аннотация: В статье представлен новый аннотированный корпус русского языка PaRuS (Parsed Russian Sentences). Корпус имеет объем свыше 2,5 миллиардов токенов и предназначен для решения задач компьютерной лингвистики методами машинного обучения. PaRuS состоит из предложений русского литературного языка. Каждое предложение снабжено лингвистической разметкой: морфологической в формате MULTEXT-East и синтаксической в нотации СинТагРус. В статье рассмотрена методология создания корпуса, описан гибридный лингвистический конвейер PaRuS_pipe, разработанный для порождения разметки. Обсуждаются вопросы качества аннотирования языкового материала в корпусе PaRuS, выполнена оценка морфологического анализатора конвейера PaRuS_pipe по методологии соревнования MorphoRuEval-2017.

Ключевые слова и фразы: компьютерная лингвистика, корпусная лингвистика, русский язык, языковой корпус, разметка, морфология, синтаксис.

УДК: 004.89:81'322.2
ББК: Ш111:З813

MSC: Primary 68T50; Secondary 91F20

Поступила в редакцию: 19.11.2019
Подписана в печать : 26.12.2019

DOI: 10.25209/2079-3316-2019-10-4-181-199



© МИАН, 2024