RUS  ENG
Полная версия
СЕМИНАРЫ

Некоторые применения математических методов в языкознании
14 мая 2026 г. 18:00, г. Москва, ИЯз РАН, актовый зал


Подходы к повышению безопасности текста, генерируемого большими языковыми моделями

К. А. Студеникина

Московский государственный университет имени М.В. Ломоносова, филологический факультет



Аннотация: Вместе с ростом возможностей больших языковых моделей возникает серьезная проблема: их ответы могут содержать неэтичный, предвзятый или опасный контент. Обеспечение безопасности генерируемого текста, его соответствие культурным и правовым нормам становится важным условием для использования LLM. В докладе мы рассмотрим несколько способов, которые позволяют предотвратить генерацию вредоносных ответов:
  • Тонкая настройка с учителем (SFT) и обучение с подкреплением (RLHF) для выравнивания с намерениями человека;
  • Использование системных промптов для управления поведением модели и их уязвимость к атакам;
  • Техники машинного забывания для удаления нежелательных знаний без полного переобучения.
В докладе также будут представлены датасеты, используемые для выравнивания и стресс-тестирования моделей на предмет безопасности.


© МИАН, 2026