Аннотация:
В работе исследовано применение нейронных сетей в задаче классификации аудиосигналов по десяти различным жанрам. Рассмотрена особенность обработки звукового сигнала в цифровой среде, выявлена связь между преобразованием Фурье и спектрограммами, рассмотрены характеристики аудиосигналов. Обучение нейронных сетей проводилось на основе датасета GTZAN, содержащего 1000 композиций. На основе датасета было сформировано 4 сравниваемых между собой набора данных, на каждом из них оценена работа трех архитектур нейронной сетей: сверточной, рекуррентной нейронных сетей, многослойному перцептрону. Практическая значимость работы заключается в возможности формирования музыкальных рекомендаций, в организации и структурировании музыки. Цель работы – готовый классификатор, который с высокой точностью мог бы определять вероятность отношения композиции к одному из десяти жанров.
Ключевые слова:аудиосигнал, мел-спектрограмма, спектр, преобразование Фурье, GTZAN, многослойный перцептрон (MLP), сверточная нейронная сеть (CNN), задача жанровой классификации.