Аннотация:
Современные большие языковые модели представляют собой огромные системы со сложным внутренними механизмами, реализующие генерацию ответа на основе черного ящика. Несмотря на то, что выровненные большие языковые модели имеют встроенные механизмы защиты от атак, последние исследования демонстрируют уязвимость больших языковых моделей к атакам. В данном исследовании мы стремимся расширить существующие вредоносные наборы данных, полученные в результате атак, чтобы в будущем можно было устранить подобные уязвимости в больших языковых моделях путем процедуры выравнивания. Кроме того, мы проводим эксперименты с современными большими языковыми моделями на нашем вредоносном наборе данных, что демонстрирует существующие недостатки в моделях.
Ключевые слова:
большие языковые модели, атаки “побег из тюрьмы”, наборы данных красной команды, доверенный искусственный интеллект.