RUS  ENG
Полная версия
ЖУРНАЛЫ // Информатика и автоматизация // Архив

Тр. СПИИРАН, 2018, выпуск 60, страницы 216–240 (Mi trspy1028)

Эта публикация цитируется в 3 статьях

Искусственный интеллект, инженерия данных и знаний

Style-code method for multi-style parametric text-to-speech synthesis

[Метод стилевых кодов для многостилевого параметрического синтеза речи по тексту]

S. B. Suzića, T. V. Delića, S. J. Ostrogonacb, S. V. Đurića, D. J. Pekarab

a University of Novi Sad
b AlfaNum – Speech Technologies

Аннотация: Современные системы преобразования текста в речь обычно обеспечивают хорошую разборчивость. Одним из главных недостатков этих систем является отсутствие выразительности по сравнению с естественной человеческой речью. Очень неприятно, когда автоматическая система передает утвердительные и отрицательные предложения совершенно одинаково. Введение параметрических методов в синтезе речи дало возможность легко изменять характеристики говорящего и стили речи. В этой статье представлен простой способ включения стилей в синтезированную речь, используя стилевые коды.
Предлагаемый метод требует всего лишь пару минут заданного стиля, чтобы смоделировать нейтральную речь. Он успешно применяется как в скрытых марковских моделях, так и в синтезе на основе глубоких нейронных сетей, предоставляя стилевой код как дополнительный вклад в модель. Аудирование подтвердило, что наибольшая выразительность достигается за счет синтеза глубоких нейронных сетей по сравнению с синтезом скрытых марковских моделей. Также доказано, что качество речи, синтезированное глубокими нейронными сетями в определенном стиле, сопоставимо с речью, синтезированной в нейтральном стиле, хотя база данных нейтральной речи примерно в 10 раз больше. Глубокие нейронные сети на основе синтеза речи по тексту со стилевыми кодами изучаются путем сравнения качества речи, создаваемой системами одностилевого моделирования и многостилевого моделирования. Объективные и субъективные измерения подтвердили, что между этими двумя подходами нет существенной разницы.

Ключевые слова: синтез речи по тексту, экспрессивный синтез речи, глубокие нейронные сети, стиль речи, стилевой код, прямой унитарный вектор.

УДК: 006.72

Поступила в редакцию: 30.07.2018

Язык публикации: английский

DOI: 10.15622/sp.60.8



Реферативные базы данных:


© МИАН, 2024