RUS  ENG
Полная версия
ЖУРНАЛЫ // Записки научных семинаров ПОМИ // Архив

Зап. научн. сем. ПОМИ, 2023, том 529, страницы 43–53 (Mi znsl7418)

Wav2Vec2 without Attention: do you need Hopfield Networks for Self-Supervised Learning of Speech Representations?

[Wav2Vec2 без внимания: нужны ли сети Хопфилда для самообучения представлений речи?]

D. Grebenkin, I. Bondarenko

Laboratory of Applied Digital Technologies, Novosibirsk State University

Аннотация: В настоящей работе мы рассматриваем возможность замены многоголового внимания слоями плотной ассоциативной памяти (dense associative memory, DAM) в алгоритме автоматического распознавания речи wav2vec2. Мы рассматриваем гипотезу о том, что концепция современных сетей Хопфилда больше подходит для задачи восстановления недостающих фрагментов звукового сигнала и задачи преобразования речи в текст, чем многоголового внимание. Наши эксперименты показывают, что модель с новой архитектурой позволяет улучшить качество распознавания речи и может использоваться для предварительного обучения моделей на большом объеме аудиоданных. Библ. – 27 назв.

Ключевые слова: распознавание речи, самовнимание, ассоциативная память.

УДК: 81.322.5

Поступило: 06.09.2023

Язык публикации: английский



© МИАН, 2024