RUS  ENG
Полная версия
ЖУРНАЛЫ // Системы и средства информатики // Архив

Системы и средства информ., 2022, том 32, выпуск 1, страницы 160–167 (Mi ssi821)

Эта публикация цитируется в 2 статьях

Поиск аномалий в больших данных

А. А. Грушоa, Н. А. Грушоa, М. И. Забежайлоa, Д. В. Смирновb, Е. Е. Тимонинаa, С. Я. Шоргинa

a Федеральный исследовательский центр «Информатика и управление» Российской академии наук
b ПАО Сбербанк России

Аннотация: Проблема достаточности информации для идентификации объекта поиска в больших данных состоит в том, что метод поиска может в условиях шума пропустить искомый объект или, наоборот, указать на объекты, которые случайно обладают признаками настоящего искомого объекта. В работе рассматривается простой подход к оценке разрешимости проблемы поиска требуемой информации в больших данных в слабых предположениях об информативности признаков идентификации объектов поиска. В простейшем случае большие данные состоят из множества объектов, каждый из которых описывается множеством параметров. Область определения каждого параметра — это свое информационное пространство. Значения параметров помогают идентифицировать искомый объект поиска и фильтровать ложные объекты. Если параметров мало, то однозначное выявление искомого объекта возможно в более сильных ограничениях на объем больших данных. Поскольку заранее не известна возможность однозначного выявления искомого объекта, то необходимо хотя бы приблизительно оценивать ограничения на объем больших данных, при которых возможно однозначное выявление искомой информации. Для таких оценок предложено использовать предельные теоремы теории вероятностей в схеме серий.

Ключевые слова: информационная безопасность, поиск аномалий, алгоритмы фильтрации «ложных тревог».

Поступила в редакцию: 22.09.2021

DOI: 10.14357/08696527220115



© МИАН, 2024