А. А. Грушо, Н. А. Грушо, М. И. Забежайло, Д. В. Смирнов, Е. Е. Тимонина, С. Я. Шоргин, “Поиск аномалий в больших данных”, Системы и средства информ., 2022, том 32, выпуск 1,страницы 160

Эта публикация цитируется в 2 статьях

Поиск аномалий в больших данных

А. А. Грушо^a, Н. А. Грушо^a, М. И. Забежайло^a, Д. В. Смирнов^b, Е. Е. Тимонина^a, С. Я. Шоргин^a

^a Федеральный исследовательский центр «Информатика и управление» Российской академии наук
^b ПАО Сбербанк России

Аннотация: Проблема достаточности информации для идентификации объекта поиска в больших данных состоит в том, что метод поиска может в условиях шума пропустить искомый объект или, наоборот, указать на объекты, которые случайно обладают признаками настоящего искомого объекта. В работе рассматривается простой подход к оценке разрешимости проблемы поиска требуемой информации в больших данных в слабых предположениях об информативности признаков идентификации объектов поиска. В простейшем случае большие данные состоят из множества объектов, каждый из которых описывается множеством параметров. Область определения каждого параметра — это свое информационное пространство. Значения параметров помогают идентифицировать искомый объект поиска и фильтровать ложные объекты. Если параметров мало, то однозначное выявление искомого объекта возможно в более сильных ограничениях на объем больших данных. Поскольку заранее не известна возможность однозначного выявления искомого объекта, то необходимо хотя бы приблизительно оценивать ограничения на объем больших данных, при которых возможно однозначное выявление искомой информации. Для таких оценок предложено использовать предельные теоремы теории вероятностей в схеме серий.

Ключевые слова: информационная безопасность, поиск аномалий, алгоритмы фильтрации «ложных тревог».

Поступила в редакцию: 22.09.2021

DOI: 10.14357/08696527220115