И. С. Алексеевская, К. В. Архипенко, Д. Ю. Турдаков, “Разработка вредоносного набора данных для защиты больших языковых моделей от атак”, Труды ИСП РАН, 2024, том 36, выпуск 5,страницы 143

Разработка вредоносного набора данных для защиты больших языковых моделей от атак

И. С. Алексеевская^a, К. В. Архипенко^ba, Д. Ю. Турдаков^ba

^a Институт системного программирования им. В.П. Иванникова РАН
^b Московский государственный университет имени М. В. Ломоносова

Аннотация: Современные большие языковые модели представляют собой огромные системы со сложным внутренними механизмами, реализующие генерацию ответа на основе черного ящика. Несмотря на то, что выровненные большие языковые модели имеют встроенные механизмы защиты от атак, последние исследования демонстрируют уязвимость больших языковых моделей к атакам. В данном исследовании мы стремимся расширить существующие вредоносные наборы данных, полученные в результате атак, чтобы в будущем можно было устранить подобные уязвимости в больших языковых моделях путем процедуры выравнивания. Кроме того, мы проводим эксперименты с современными большими языковыми моделями на нашем вредоносном наборе данных, что демонстрирует существующие недостатки в моделях.

Ключевые слова: большие языковые модели, атаки “побег из тюрьмы”, наборы данных красной команды, доверенный искусственный интеллект.

DOI: 10.15514/ISPRAS-2024-36(5)-10