В. В. Петроченков, А. О. Казенников, “Статистический теггер для морфологической разметки русскоязычных текстов”, Автомат. и телемех., 2013, выпуск 10,страницы 154

Эта публикация цитируется в 2 статьях

Тематический выпуск

Статистический теггер для морфологической разметки русскоязычных текстов

В. В. Петроченков^a, А. О. Казенников^b

^a Институт проблем передачи информации им. А. А. Харкевича РАН
^b Московский государственный институт радиотехники, электроники и автоматики

Аннотация: Рассматривается метод построения статистического теггера для автоматической морфологической разметки русскоязычных текстов. При такой разметке каждому слову приписывается тег, содержащий в себе информацию о части речи и полном наборе морфологических характеристик слова. Используется набор морфологических характеристик, принятый в корпусе СинТагРус, материал которого использовался для обучения теггера. В основе работы теггера лежит метод опорных векторов SVM (Support Vector Machine). Разработанный теггер показал высокую скорость и хорошее качество разметки.

Статья представлена к публикации членом редколлегии: А. В. Бернштейн

Поступила в редакцию: 11.03.2013