RUS  ENG
Полная версия
ЖУРНАЛЫ // Информатика и автоматизация // Архив

Тр. СПИИРАН, 2014, выпуск 36, страницы 128–150 (Mi trspy753)

Формирование персональной модели голоса диктора с универсальным фонетическим пространством признаков на основе искусственной нейронной сети

И. С. Азаров, А. А. Петровский

БГУИР, ул. П. Бровки 6, г. Минск, 220013, РБ

Аннотация: В работе исследуется возможность формирования модели голоса заданного диктора на основе записей образцов его голоса с транскрипцией. В работе предлагается практический способ построения голосовой модели и результаты экспериментов ее применения к задаче конверсии голоса. Модель использует искусственную нейронную сеть, устроенную по принципу автоматического кодера, устанавливающую соответствие между пространством речевых параметров и пространством возможных фонетических состояний, унифицированным для произвольного голоса.

Ключевые слова: конверсия голоса; синтез речевого сигнала; искусственная нейронная сеть.

УДК: 004.934

DOI: 10.15622/sp.36.8



© МИАН, 2024