Аннотация:
В настоящей работе мы рассматриваем возможность замены многоголового внимания слоями плотной ассоциативной памяти (dense associative memory, DAM) в алгоритме автоматического распознавания речи wav2vec2. Мы рассматриваем гипотезу о том, что концепция современных сетей Хопфилда больше подходит для задачи восстановления недостающих фрагментов звукового сигнала и задачи преобразования речи в текст, чем многоголового внимание. Наши эксперименты показывают, что модель с новой архитектурой позволяет улучшить качество распознавания речи и может использоваться для предварительного обучения моделей на большом объеме аудиоданных. Библ. – 27 назв.