RUS  ENG
Полная версия
ЖУРНАЛЫ // Автоматика и телемеханика // Архив

Автомат. и телемех., 2022, выпуск 10, страницы 67–79 (Mi at16052)

Тематический выпуск

Градиентные методы оптимизации метапараметров в задаче дистилляции знаний

М. Горпиничa, О. Ю. Бахтеевb, В. В. Стрижовb

a Московский физико-технический институт (государственный университет)
b Вычислительный центр имени А.А. Дородницына Федерального исследовательского центра «Информатика и управление» РАН, Москва

Аннотация: В работе исследуется задача дистилляции моделей глубокого обучения. Дистилляция знаний — это задача оптимизации метапараметров, в которой происходит перенос информации модели более сложной структуры, называемой моделью-учителем, в модель более простой структуры, называемой моделью-учеником. В работе предлагается обобщение задачи дистилляции на случай оптимизации метапараметров градиентными методами. Метапараметрами являются параметры оптимизационной задачи дистилляции. В качестве функции потерь для такой задачи выступает сумма слагаемого классификации и кросс-энтропии между ответами модели-ученика и модели-учителя. Назначение оптимальных метапараметров в функции потерь дистилляции является вычислительно сложной задачей. Исследуются свойства оптимизационной задачи с целью предсказания траектории обновления метапараметров. Проводится анализ траектории градиентной оптимизации метапараметров и предсказывается их значение с помощью линейных функций. Предложенный подход проиллюстрирован с помощью вычислительного эксперимента на выборках CIFAR-10 и Fashion-MNIST, а также на синтетических данных.

Ключевые слова: машинное обучение, дистилляция знаний, оптимизация метапараметров, градиентная оптимизация, назначение метапараметров.

Статья представлена к публикации членом редколлегии: А. А. Лазарев

Поступила в редакцию: 17.02.2022
После доработки: 23.06.2022
Принята к публикации: 29.06.2022

DOI: 10.31857/S0005231022100075


 Англоязычная версия: Automation and Remote Control, 2022, 83:10, 1544–1554

Реферативные базы данных:


© МИАН, 2024