T. Ter-Hovhannisyan, H. Aleksanyan, K. Avetisyan, “Adversarial attacks on language models: WordPiece filtration and ChatGPT synonyms”, Зап. научн. сем. ПОМИ, 2023, том 530,страницы 80

Adversarial attacks on language models: WordPiece filtration and ChatGPT synonyms

[Состязательные атаки на языковые модели: фильтрация WordPiece и синонимы ChatGPT]

T. Ter-Hovhannisyan, H. Aleksanyan, K. Avetisyan

Russian-Armenian University, ISP RAS, Yerevan, Armenia

Аннотация: В последние годы состязательные атаки на текст привлекли значительное внимание из-за их потенциальной возможности подорвать надежность моделей обработки естественного языка. Мы представляем новые подходы к созданию состязательных примеров на уровне символов и слов в виде черного ящика, применимые к моделям на основе BERT. Подход на уровне символов основан на идее добавления естественных опечаток в слово в соответствии с его токенизацией WordPiece. В рамках подходов на уровне слов мы представляем три метода, которые используют синонимичные слова-заменители, созданные ChatGPT и затем скорректированные для приведения их в соответствующую грамматическую форму для данного контекста. Кроме того, мы пытаемся минимизировать частоту возмущений, принимая во внимание ущерб, который каждое возмущение наносит модели. Комбинируя подходы на уровне символов, подходы на уровне слов и технику минимизации частоты возмущений, мы достигаем наилучшей производительности атаки. Наш лучший подход работает на 30-65% быстрее, чем лучший ранее метод Tampers, и имеет сопоставимую частоту возмущений. В то же время предлагаемые возмущения сохраняют семантическое сходство исходного и состязательного примеров и достигают относительно низкого значения расстояния Левенштейна. Библ. – 22 назв.

Ключевые слова: состязательные атаки, атаки на уровне символов, атаки на уровне слов, синонимы ChatGPT, WordPiece.

УДК: 81.322.2

Поступило: 06.09.2023

Язык публикации: английский