Семинары: Александр Панов, Обучение с подкреплением как универсальный инструмент тонкой настройки: от RLHF до DeepSeek

СЕМИНАРЫ


Коллоквиум Факультета компьютерных наук НИУ ВШЭ 11 февраля 2025 г. 16:20, г. Москва, Покровский бульвар 11

Обучение с подкреплением как универсальный инструмент тонкой настройки: от RLHF до DeepSeek Александр Панов
Аннотация: В последнее время обучение с подкреплением является не только самодостаточным методом поиска стратегии для различных типов марковских процессов, но и служит признанным эффективнм инструментом дообучения больших (базовых) моделей. В докладе мы рассмотрим то, как устроена комбинация обучения с учителем (или самообучения) и адаптации под дополнительный сигнал вознаграждения. Разберем, как этот процесс работает для языковых моделей и для мультимодальных архитектур. Остановимся также на робототехнических приложениях с использованием современных поведенческих моделей. Website: https://us06web.zoom.us/meeting/register/J_aY42j1SKyRWwBMjWI_qg#/registration