RUS  ENG
Полная версия
ЖУРНАЛЫ // Информатика и автоматизация // Архив

Тр. СПИИРАН, 2011, выпуск 19, страницы 146–158 (Mi trspy440)

Метод сглаживания вероятностей n грамм на основе моделирования математического ожидания их встречаемости

А. П. Зыков

ООО «Стэл КС»

Аннотация: В работе предлагается метод сглаживания n граммной модели языка, в основе которого лежит моделирование функции математического ожидания вероятности встречаемости n грамм. Вместо дисконтирования максимальной вероятности n грамм предлагается увеличение мощности обучающего множества на ожидаемое число n грамм, отсутствующих в обучающей базе текстов. Для моделирования этого числа функция математического ожидания вероятности встречаемости экстраполируется к нулевой частоте. На основе статистического анализа текстов построена модель функции математического ожидания встречаемости.

Ключевые слова: модель языка, метод сглаживания.

УДК: 519.766.4

Поступила в редакцию: 05.07.2011
Принята в печать: 29.11.2011



© МИАН, 2024