Аннотация:
В условиях растущего применения моделей искусственного интеллекта (ИИ) всё больше внимания уделяется вопросам доверия и безопасности систем использующих ИИ от разных типов угроз (атаки уклонения, отравления, вывод о членстве и т.д.). В этой работе мы сосредотачиваемся на задаче классификации вершин графов, выделяя ее как одну из самых сложных. Эта работа является первой, насколько нам известно, в которой исследуется взаимосвязь методов защиты моделей ИИ от разных типов угроз на графовых данных. Наши эксперименты проводятся на наборах данных: цитирования и графов покупок. Мы показываем, что в общем случае нельзя просто использовать комбинации методов защит от разных типов угроз и, что это может иметь серьезные негативные последствия вплоть до полной потери эффективности модели. А также, мы приводим теоретическое доказательство противоречия класса методов защит от атак отравления на графах и состязательного обучения.
Ключевые слова:
атаки на модели искусственного интеллекта; защищенность; классификация вершин графов; доверенный искусственный интеллект.