RUS  ENG
Полная версия
ЖУРНАЛЫ // Информатика и автоматизация // Архив

Тр. СПИИРАН, 2018, выпуск 59, страницы 192–215 (Mi trspy1019)

Искусственный интеллект, инженерия данных и знаний

Learning prosodic stress from data in neural network based text-to-speech synthesis

[Обучение просодической модели по данным в нейросетевом синтезе речи]

M. Sečujskia, S. Ostrogonacb, S. Suzića, D. Pekarab

a University of Novi Sad
b AlfaNum – Speech Technologies

Аннотация: Естественность — один из важнейших аспектов синтезированной речи. Современные параметрические синтезаторы речи требуют обучения на большом количестве аннотированных речевых данных, чтобы иметь возможность передавать просодические элементы, такие как тоническое ударение и фразовый граничный тон. Наиболее часто используемый инструментарий для просодической аннотации речи в американском английском языке — Индексы Тонов и Просодических швов — ToBI, которые также были адаптированы для использования на других языках. В настоящей статье представлены некоторые недостатки ToBI в синтезе речи на американском английском языке, которые связаны с отсутствием тегов, специально предназначенных для обозначения различий в уровне просодии (акцента), связанной с конкретной частью предложения. В данном исследовании предлагается введение набора тегов, предназначенных для точного моделирования степени просодии, а именно определенная составляющая предложения может быть особо подчеркнута, если она является намеченным фокусом высказывания или ее роль преуменьшена, как это обычно бывает с фразами, сообщающими о прямой речи или комментариями.
С помощью нескольких аудирований было продемонстрировано, что изучение просодической модели на основе данных имеет определенные преимущества перед подходами, пытающимися использовать существующие теги ToBI для передачи степени акцента в синтезированной речи: речь, синтезированная нейронной сетью, обученной на данных с тегами уровня просодии, представляется более естественной, и слушатели могут с большим успехом отыскать просодическую составляющую предложения.

Ключевые слова: американский английский, просодическая модель, синтез речи, ToBI.

УДК: 004.5

Поступила в редакцию: 15.05.2018

Язык публикации: английский

DOI: 10.15622/sp.59.8



Реферативные базы данных:


© МИАН, 2024