Аннотация:
Проблема обнаружения сетевых атак приобретает особую значимость в условиях роста сложности киберугроз и ограниченности традиционных сигнатурных методов. В данной работе проведен комплексный анализ пяти алгоритмов машинного обучения с фокусом на интерпретируемость моделей и обработку несбалансированных данных Simulated Network Traffic. Основная задача – повышение точности детектирования кибератак, включая DDoS и сканирование портов, с использованием дерева решений, логистической регрессии, случайного леса и других методов. Исследование выполнено на Python 3.13 с применением библиотек scikit-learn, XGBoost и TensorFlow. Выбор инструментов обусловлен спецификой задачи: для классических методов (деревья, логистическая регрессия) и ансамблевых подходов (Random Forest, XGBoost) scikit-learn оказался оптимальным, а для нейросетевых экспериментов (RProp MLP) TensorFlow/Keras предоставил удобный интерфейс для прототипирования. PyTorch не использовался, так как для бинарной классификации на структурированных данных он не давал преимуществ, но его применение могло бы быть оправдано для анализа последовательностей или неструктурированных логов в будущих исследованиях. Дерево решений продемонстрировало наивысшую точность – 99.4% при глубине 5 и выделении 8 ключевых признаков из 18. Градиентный бустинг после настройки показал сопоставимый результат – 99.58%, однако его обучение заняло значительно больше времени (576 секунд против 69 дерева решений). Случайный лес достиг точности 97.98%, а логистическая регрессия – 96.53%. Наивный Байес оказался наименее эффективным (86.48%), несмотря на попытки улучшения с помощью PCA. Линейная регрессия, преобразованная в классификатор, показала точность 94.94%, что ниже ансамблевых методов, но приемлемо для базового подхода. Практическая ценность работы подтверждена тестированием на реальных сетевых данных. Полученные результаты могут лечь в основу гибридных систем, комбинирующих несколько алгоритмов для повышения надежности детектирования. Например, сочетание быстрого дерева решений для первичного анализа и градиентного бустинга для уточнения сложных случаев позволит балансировать между скоростью и точностью. Отдельно стоит отметить важность интерпретируемости моделей: деревья и логистическая регрессия не только показали хорошие результаты, но и позволили выявить ключевые признаки атак, что критично для интеграции в существующие системы безопасности.