Аннотация:
В данной статье рассматриваются проблемы, которые появляются при объединении моделей шумоподавления и автоматического распознавания речи (АРР). Когда эти модели объединяются напрямую, производительность распознавания слов часто страдает из-за изменения распределения входных данных. Чтобы преодолеть это ограничение, в данной статье рассматривается новый метод объединения этих моделей, который повышает способность модели АРР хорошо работать в шумной среде.
Ключевой особенностью предлагаемого метода является введение механизма управления агрессивностью шумоподавления. Этот механизм позволяет настроить процесс снижения шума в соответствии с конкретными требованиями модели АРР без необходимости какого-либо переобучения. Это преимущество делает данный метод применимым к любой модели АРР, облегчая его реализацию в практических сценариях.