Аннотация:
Одной из важнейших задач в области цифровой обработки речевых сигналов является определение во входном акустическом сигнале участков активной речи и фонового шума либо тишины. Решение данной задачи имеет ряд очень важных практических приложений, таких как анализ речи в голосовых командных системах, передача акустических данных по сети, автоматическое распознавание речевых сигналов и др. Однако большинство имеющихся систем автоматического анализа речевых сигналов плохо справляются с этой задачей при малых отношениях “сигнал/шум” и помимо этого требуют индивидуальной настройки в зависимости от уровня шума. Вследствие этого становится невозможной полностью автоматическая сегментация входных акустических
сигналов. В настоящей работе рассмотрена задача построения системы автоматической сегментации речевых сигналов, искажённых аддитивным шумом разного рода и разной интенсивности. Разработанная система, которая основана на использовании трёх различных моделей глубоких свёрточных нейронных сетей, способна с высокой эффективностью автоматически определять участки речи и пауз в зашумлённых сигналах в широком диапазоне значений соотношения “сигнал/шум” и для различных видов шума.