RUS  ENG
Полная версия
ЖУРНАЛЫ // Труды института системного программирования РАН // Архив

Труды ИСП РАН, 2024, том 36, выпуск 5, страницы 127–142 (Mi tisp927)

Так ли безопасна интерпретируемость ИИ: взаимосвязь интерпретируемости и защищенности моделей машинного обучения

Г. В. Сазоновab, К. С. Лукьяновbcd, С. К. Боярскийe, И. А. Макаровfd

a Московский государственный университет имени М. В. Ломоносова
b Институт системного программирования им. В.П. Иванникова РАН
c Московский физико-технический институт (НИУ)
d Исследовательский центр доверенного искусственного интеллекта ИСП РАН
e Школа анализа данных Яндекса
f Институт искусственного интеллекта AIRI

Аннотация: В условиях растущего применения интерпретируемых моделей искусственного интеллекта (ИИ) всё больше внимания уделяется вопросам доверия и безопасности для всех типов данных. В этой работе мы сосредотачиваемся на задаче классификации вершин графов, выделяя ее как одну из самых сложных. Эта работа является первой, насколько нам известно, в которой комплексно исследуется взаимосвязь интерпретируемости и защищенности. Наши эксперименты проводятся на наборах данных: цитирования и графов покупок. Мы предлагаем методики построения атак черного ящика графовых моделей на основании результатов интерпретации, показываем, как добавление защиты влияет на интерпретируемость моделей ИИ.

Ключевые слова: интерпретируемость, защищенность, атаки на модели искусственного интеллекта, атаки черного ящика, классификация вершин графов, доверенный искусственный интеллект.

DOI: 10.15514/ISPRAS-2024-36(5)-9



© МИАН, 2025