О. А. Ковалева, А. В. Самохвалов, М. А. Ляшков, С. Ю. Пчелинцев, “Метод повышения качества обнаружения атак на веб-приложения с применением предобученных моделей естественного языка”, Изв. Сарат. ун-та. Нов. сер. Сер.: Математика. Механика. Информатика, 2024, том 24, выпуск 3,страницы 442

Научный отдел
Информатика

Метод повышения качества обнаружения атак на веб-приложения с применением предобученных моделей естественного языка

О. А. Ковалева, А. В. Самохвалов, М. А. Ляшков, С. Ю. Пчелинцев

Тамбовский государственный университет имени Г. Р. Державина, Россия, 392036, г. Тамбов, ул. Интернациональная, д. 33

Аннотация: Исследуется использование методов глубокого обучения для повышения производительности защитных экранов веб-приложений (WAF). Описывается конкретный метод повышения качества функционирования защитных экранов и приводятся результаты его тестирования на публично доступных данных CSIC 2010. Большинство защитных экранов веб-приложений работают на основе правил, которые были составлены экспертами. При работе сетевые экраны проверяют HTTP-запросы, которыми обмениваются клиент и сервер для обнаружения атак и блокирования потенциальных угроз. Ручное составление правил требует времени экспертов, а распространяемые готовые наборы правил не учитывают специфику конкретных пользовательских приложений, поэтому допускают много ложноположительных срабатываний и пропускают много сетевых атак. В последние годы использование предварительно обученных языковых моделей привело к значительным улучшениям в разнообразном наборе задач обработки естественного языка, поскольку они способны выполнять перенос знаний. В статье описывается адаптация этих подходов на сферу информационной безопасности, т. е. использование предварительно обученной языковой модели в качестве средства извлечения признаков для сопоставления HTTP-запроса с вектором признаков. Эти векторы используются для обучения классификатора. Предложено решение, которое состоит из двух этапов. На первом этапе создается глубокая предобученная языковая модель на основе нормальных HTTP-запросов к веб-приложению. На втором этапе эта модель используется в качестве средства извлечения признаков и обучается с помощью одноклассового классификатора. Оба этапа совершаются для каждого приложения. Экспериментальные результаты показывают, что предлагаемый подход значительно превосходит подходы классического Mod-Security, основанного на правилах, настроенных с помощью OWASP CRS, и не требует участия эксперта по безопасности для определения правил срабатывания.

Ключевые слова: сетевые экраны, анализ HTTP-запросов, предварительно обученные языковые модели.

УДК: 004.032.2

Поступила в редакцию: 28.01.2023
Принята в печать: 02.02.2023

DOI: 10.18500/1816-9791-2024-24-3-442-451