RUS  ENG
Полная версия
ЖУРНАЛЫ // Доклады Российской академии наук. Математика, информатика, процессы управления // Архив

Докл. РАН. Матем., информ., проц. упр., 2025, том 527, страницы 449–458 (Mi danma700)

СПЕЦИАЛЬНЫЙ ВЫПУСК: ТЕХНОЛОГИИ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА И МАШИННОГО ОБУЧЕНИЯ

HAMSA: автоматизированный метод атак компактных выровненных моделей

А. С. Крыловabc, И. И. Вагизовabc, Д. С. Коржdc, М. Дуибаe, А. Геззазe, В. Н. Кохabc, С. Д. Ерохинdef, Е. В. Тутубалинаbcf, О. Ю. Роговdac

a Московский физико-технический институт (национальный исследовательский университет), Москва, Россия
b Сбербанк, Москва, Россия
c Научно-исследовательский институт искусственного интеллекта, Москва, Россия
d Московский технический университет связи и информатики, Москва, Россия
e Университет Кади Айяд, Касабланка, Марокко
f Казанский (Приволжский) федеральный университет, Казань, Россия

Аннотация: Большие языковые модели (LLM), в особенности их компактные, ориентированные на эффективность варианты, остаются уязвимыми к атакам, которые могут спровоцировать генерацию вредоносных выводов, несмотря на масштабные работы по их выравниванию. Существующие техники генерации атакующих запросов часто полагаются на ручную работу или примитивное обфусцирование, производя низкокачественные или бессвязные тексты, которые легко обнаруживаются фильтрами на основе перплексии. Мы представляем автоматизированный алгоритм, который эволюционным путем создает семантически осмысленные и скрытые промиты для выровненных компактных LLM. Данный подход использует многоэтапный эволюционный поиск, в котором промиты итеративно улучшаются с помощью генетического алгоритма, для баланса между изучением новых вариантов и сохранением смысловой связности в алгоритме используется регулирование температуры. Это позволяет автоматически обнаруживать промиты, способные обойти защитные механизмы модели. Мы оцениваем наш метод на бенчмарках на английском языке (In-The-Wild Jailbreak Prompts on LLMs) и на новом, специально созданном арабском наборе данных, производном от In-The-Wild Jailbreak Prompts on LLMs, аннотированном носителями языка, что позволяет провести многогранную оценку.

Ключевые слова: устойчивость языковых моделей, безопасность ИИ, выравнивание моделей, тестирование на устойчивость, взлом защитных механизмов, генерация атакующих запросов.

Поступило: 15.08.2025
Принято к публикации: 15.09.2025

DOI: 10.7868/S2686954325070380



Реферативные базы данных:


© МИАН, 2025