RUS  ENG
Полная версия
ЖУРНАЛЫ // Информатика и автоматизация // Архив

Тр. СПИИРАН, 2013, выпуск 24, страницы 332–348 (Mi trspy571)

Программно-алгоритмическое обеспечение создания синтаксическо-статистической модели русского языка по текстовому корпусу

И. С. Кипяткова

Санкт-Петербургский институт информатики и автоматизации РАН

Аннотация: Создание модели языка является одним из этапов обучения системы распознавания слитной речи. В статье описаны алгоритм и разработанные программные средства для создания синтаксическо-статистической модели русского языка по текстовому корпусу. Основными этапами в работе алгоритма являются предварительная обработка текстового материала, создание статистической n-граммной модели языка, дополнение статистической модели n-граммами, полученными в результате синтаксического анализа. Синтаксический анализ позволяет увеличить количество создаваемых в результате обработки текста различных биграмм и тем самым повысить качество модели языка за счет выявления грамматически связанных пар слов. Приводятся результаты тестирования созданных с помощью программного модуля моделей языка по показателям информационной энтропии, коэффициента неопределенности, относительного количества внесловарных слов и совпадений n-грамм.

Ключевые слова: автоматическое распознавание речи, статистическая модель языка, синтаксический анализ.

УДК: 004.522

PACS: 43.71.Sy

MSC: 68T50

Поступила в редакцию: 01.02.2013



© МИАН, 2024