Семинары: К. А. Студеникина, Подходы к повышению безопасности текста, генерируемого большими языковыми моделями

СЕМИНАРЫ


Некоторые применения математических методов в языкознании 14 мая 2026 г. 18:00, г. Москва, ИЯз РАН, актовый зал

Подходы к повышению безопасности текста, генерируемого большими языковыми моделями К. А. Студеникина Московский государственный университет имени М.В. Ломоносова, филологический факультет
Аннотация: Вместе с ростом возможностей больших языковых моделей возникает серьезная проблема: их ответы могут содержать неэтичный, предвзятый или опасный контент. Обеспечение безопасности генерируемого текста, его соответствие культурным и правовым нормам становится важным условием для использования LLM. В докладе мы рассмотрим несколько способов, которые позволяют предотвратить генерацию вредоносных ответов: Тонкая настройка с учителем (SFT) и обучение с подкреплением (RLHF) для выравнивания с намерениями человека; Использование системных промптов для управления поведением модели и их уязвимость к атакам; Техники машинного забывания для удаления нежелательных знаний без полного переобучения. В докладе также будут представлены датасеты, используемые для выравнивания и стресс-тестирования моделей на предмет безопасности.