Аннотация:
Большие языковые модели (LLM), в особенности их компактные, ориентированные на эффективность варианты, остаются уязвимыми к атакам, которые могут спровоцировать генерацию вредоносных выводов, несмотря на масштабные работы по их выравниванию. Существующие техники генерации атакующих запросов часто полагаются на ручную работу или примитивное обфусцирование, производя низкокачественные или бессвязные тексты, которые легко обнаруживаются фильтрами на основе перплексии. Мы представляем автоматизированный алгоритм, который эволюционным путем создает семантически осмысленные и скрытые промиты для выровненных компактных LLM. Данный подход использует многоэтапный эволюционный поиск, в котором промиты итеративно улучшаются с помощью генетического алгоритма, для баланса между изучением новых вариантов и сохранением смысловой связности в алгоритме используется регулирование температуры. Это позволяет автоматически обнаруживать промиты, способные обойти защитные механизмы модели. Мы оцениваем наш метод на бенчмарках на английском языке (In-The-Wild Jailbreak Prompts on LLMs) и на новом, специально созданном арабском наборе данных, производном от In-The-Wild Jailbreak Prompts on LLMs, аннотированном носителями языка, что позволяет провести многогранную оценку.