Т. В. Ермоленко, Н. С. Клименко, “Использование сегментации речевого сигнала для построения комплексной модели диктора в системе идентификации говорящего.”, Тр. СПИИРАН, 2013, выпуск 26,страницы 332

Использование сегментации речевого сигнала для построения комплексной модели диктора в системе идентификации говорящего.

Т. В. Ермоленко^ab, Н. С. Клименко^a

^a Институт проблем искусственного интеллекта НАН Украины и МОН Украины
^b Донецкий национальный технический университет

Аннотация: Статья посвящена разработке комплексной модели диктора в задаче текстонезависимой идентификации по голосу. Комплексная модель базируется на методе гауссовых смесей. Ее формируют по речевому сигналу, который предварительно сегментируется на фрагменты, соответствующие различным фонетическим классам звуков. Предложен способ структурирования моделей дикторов. Модели дикторов структурированы в виде дерева, что позволило проводить идентификацию диктора без выполнения полного перебора всего множества моделей. Проведенные исследования показали, что деление акустического пространства голоса диктора на множество классов, представляющих некоторые фонетические события, приводит к увеличению эффективности идентификации по голосу, а предложенное структурирование множества моделей дикторов ускоряет операцию поиска.

Ключевые слова: кластеризация, гауссовы смеси, модели дикторов, широкие фонетические классы, мел-частотные кепстральные коэффициенты.

УДК: 004.89, 004.93

PACS: 43.71.Sy

MSC: 68T50

Поступила в редакцию: 04.04.2013