М. Н. Горюнов, А. Г. Мацкевич, Д. А. Рыболовлев, “Синтез модели машинного обучения для обнаружения компьютерных атак на основе набора данных CICIDS2017”, Труды ИСП РАН, 2020, том 32, выпуск 5,страницы 81

Эта публикация цитируется в 15 статьях

Синтез модели машинного обучения для обнаружения компьютерных атак на основе набора данных CICIDS2017

М. Н. Горюнов, А. Г. Мацкевич, Д. А. Рыболовлев

Академия ФСО России

Аннотация: В работе рассмотрены вопросы построения и практической реализации модели обнаружения компьютерных атак на основе методов машинного обучения. Среди доступных публичных наборов данных выбран один из наиболее актуальных – CICIDS2017. Для рассматриваемого набора данных подробно разработаны процедуры предварительной обработки данных и сэмплирования. При проведении экспериментов для сокращения времени вычислений в обучающей выборке оставлен единственный класс компьютерных атак – веб-атаки (brute force, XSS, SQL injection). Последовательно описана процедура формирования признакового пространства, позволившая существенно снизить его размерность – с 85 до 10 наиболее значимых признаков. Произведена оценка качества десяти наиболее распространенных моделей машинного обучения на полученной предобработанной подвыборке данных. Среди моделей (алгоритмов), которые продемонстрировали наилучшие результаты (k-nearest neighbors, decision tree, random forest, AdaBoost, logistic regression), с учетом минимального времени выполнения обоснован выбор модели «случайный лес». На этапе настройки и обучения выбранной модели осуществлен квазиоптимальный подбор гиперпараметров, что позволило добиться повышения качества модели в сравнении с ранее опубликованными результатами исследований. Произведена апробация синтезированной модели обнаружения атак на реальном сетевом трафике, показавшая ее состоятельность только при условии обучения на данных, собираемых в конкретной защищаемой сети, в виду зависимости ряда значимых признаков от физической структуры сети и настроек используемого оборудования. Сделан вывод о возможности применения методов машинного обучения для обнаружения компьютерных атак с учетом указанных ограничений.

Ключевые слова: информационная безопасность, система обнаружения атак, машинное обучение, дерево решений, случайный лес, сетевой трафик, компьютерная атака.

DOI: 10.15514/ISPRAS-2020-32(5)-6