RUS  ENG
Полная версия
ЖУРНАЛЫ // Информатика и автоматизация // Архив

Тр. СПИИРАН, 2007, выпуск 4, страницы 388–404 (Mi trspy292)

Двухуровневый морфофонемный префиксный граф для декодирования русской слитной речи

А. Л. Ронжинa, Ан.Б. Леонтьева, И.А. Кагиров, Ш. Тайль

a Санкт-Петербургский институт информатики и автоматизации РАН

Аннотация: Описан новый способ компактного хранения словаря слов и их транскрипций в виде фонемного графа, учитывающего дифференциальные морфологические признаки слов. Сокращение словаря особенно актуально для флективных языков, где богатая морфология сильно затрудняет анализ текста и речи. Для повышения производительности декодера русской речи с большим словарем предлагается использовать двухуровневый морфофонемный префиксный граф. Выделение одинаковых основ и окончаний в различных словах существенно сокращает пространство поиска гипотез распознавания. Использованная статистическая модель языка учитывает встречаемость комбинаций основ, а не целых слов, что уменьшает сложность декодирования слитной речи и требует для обучения значительно меньшего объема текстовых ресурсов. По сравнению с базовыми моделями фонетического представления словаря сложность топологии предложенного графа оказалась в 17 раз меньше.

УДК: 681.3



© МИАН, 2025