И. С. Кипяткова, А. А. Карпов, “Разработка и исследование статистической модели русского языка”, Тр. СПИИРАН, 2010, выпуск 12,страницы 35

Эта публикация цитируется в 1 статье

Разработка и исследование статистической модели русского языка

И. С. Кипяткова, А. А. Карпов

Санкт-Петербургский институт информатики и автоматизации РАН

Аннотация: В статье описан процесс создания статистической модели русского языка для систем распознавания слитной речи. Дана характеристика собранного текстового корпуса, который сформирован из новостных лент ряда Интернет-сайтов электронных газет, проводится статистический анализ данного корпуса. На основе собранного текстового корпуса созданы униграммная, биграммная и триграммная модели русского языка. Для определения качества этих моделей использованы показатели энтропии и коэффициента неопределенности для этих моделей. Также в статье приведен обзор существующих подходов к созданию статистических моделей языка.

Ключевые слова: статистическая обработка текста, модель языка.

УДК: 004.522

Поступила в редакцию: 16.11.2010
Принята в печать: 06.12.2010