S. B. Suzić, T. V. Delić, S. J. Ostrogonac, S. V. Đurić, D. J. Pekar, “Style-code method for multi-style parametric text-to-speech synthesis”, Тр. СПИИРАН, 2018, выпуск 60,страницы 216

Эта публикация цитируется в 3 статьях

Искусственный интеллект, инженерия данных и знаний

Style-code method for multi-style parametric text-to-speech synthesis

[Метод стилевых кодов для многостилевого параметрического синтеза речи по тексту]

S. B. Suzić^a, T. V. Delić^a, S. J. Ostrogonac^b, S. V. Đurić^a, D. J. Pekar^ab

^a University of Novi Sad
^b AlfaNum – Speech Technologies

Аннотация: Современные системы преобразования текста в речь обычно обеспечивают хорошую разборчивость. Одним из главных недостатков этих систем является отсутствие выразительности по сравнению с естественной человеческой речью. Очень неприятно, когда автоматическая система передает утвердительные и отрицательные предложения совершенно одинаково. Введение параметрических методов в синтезе речи дало возможность легко изменять характеристики говорящего и стили речи. В этой статье представлен простой способ включения стилей в синтезированную речь, используя стилевые коды.
Предлагаемый метод требует всего лишь пару минут заданного стиля, чтобы смоделировать нейтральную речь. Он успешно применяется как в скрытых марковских моделях, так и в синтезе на основе глубоких нейронных сетей, предоставляя стилевой код как дополнительный вклад в модель. Аудирование подтвердило, что наибольшая выразительность достигается за счет синтеза глубоких нейронных сетей по сравнению с синтезом скрытых марковских моделей. Также доказано, что качество речи, синтезированное глубокими нейронными сетями в определенном стиле, сопоставимо с речью, синтезированной в нейтральном стиле, хотя база данных нейтральной речи примерно в 10 раз больше. Глубокие нейронные сети на основе синтеза речи по тексту со стилевыми кодами изучаются путем сравнения качества речи, создаваемой системами одностилевого моделирования и многостилевого моделирования. Объективные и субъективные измерения подтвердили, что между этими двумя подходами нет существенной разницы.

Ключевые слова: синтез речи по тексту, экспрессивный синтез речи, глубокие нейронные сети, стиль речи, стилевой код, прямой унитарный вектор.

УДК: 006.72

Поступила в редакцию: 30.07.2018

Язык публикации: английский

DOI: 10.15622/sp.60.8