Аннотация:
Рассматривается метод построения статистического теггера для автоматической морфологической разметки русскоязычных текстов. При такой разметке каждому слову приписывается тег, содержащий в себе информацию о части речи и полном наборе морфологических характеристик слова. Используется набор морфологических характеристик, принятый в корпусе СинТагРус, материал которого использовался для обучения теггера. В основе работы теггера лежит метод опорных векторов SVM (Support Vector Machine). Разработанный теггер показал высокую скорость и хорошее качество разметки.
Статья представлена к публикации членом редколлегии:А. В. Бернштейн