RUS  ENG
Полная версия
ЖУРНАЛЫ // Искусственный интеллект и принятие решений // Архив

Искусственный интеллект и принятие решений, 2021, выпуск 1, страницы 75–85 (Mi iipr93)

Анализ сигналов, аудио и видео информации

Сегментация зашумленных речевых сигналов

А. Г. Шишкин, С. Д. Процеров

Московский государственный университет имени М. В. Ломоносова, г. Москва, Россия

Аннотация: Одной из важнейших задач в области цифровой обработки речевых сигналов является определение во входном акустическом сигнале участков активной речи и фонового шума либо тишины. Решение данной задачи имеет ряд очень важных практических приложений, таких как анализ речи в голосовых командных системах, передача акустических данных по сети, автоматическое распознавание речевых сигналов и др. Однако большинство имеющихся систем автоматического анализа речевых сигналов плохо справляются с этой задачей при малых отношениях “сигнал/шум” и помимо этого требуют индивидуальной настройки в зависимости от уровня шума. Вследствие этого становится невозможной полностью автоматическая сегментация входных акустических сигналов. В настоящей работе рассмотрена задача построения системы автоматической сегментации речевых сигналов, искажённых аддитивным шумом разного рода и разной интенсивности. Разработанная система, которая основана на использовании трёх различных моделей глубоких свёрточных нейронных сетей, способна с высокой эффективностью автоматически определять участки речи и пауз в зашумлённых сигналах в широком диапазоне значений соотношения “сигнал/шум” и для различных видов шума.

Ключевые слова: речевые сигналы, свёрточные нейронные сети, сегментация, цифровая обработка звуковых сигналов.

DOI: 10.14357/20718594210107


 Англоязычная версия: , 2022, 49:5, 356–363

Реферативные базы данных:


© МИАН, 2024