Аннотация:
Проблема достаточности информации для идентификации объекта поиска в больших данных состоит в том, что метод поиска может в условиях шума пропустить искомый объект или, наоборот, указать на объекты, которые случайно обладают признаками настоящего искомого объекта. В работе рассматривается простой подход к оценке разрешимости проблемы поиска требуемой информации в больших данных в слабых предположениях об информативности признаков идентификации объектов поиска. В простейшем случае большие данные состоят из множества объектов, каждый из которых описывается множеством параметров. Область определения каждого параметра — это свое информационное пространство. Значения параметров помогают идентифицировать искомый объект поиска и фильтровать ложные объекты. Если параметров мало, то однозначное выявление искомого объекта возможно в более сильных ограничениях на объем больших данных. Поскольку заранее не известна возможность однозначного выявления искомого объекта, то необходимо хотя бы приблизительно оценивать ограничения на объем больших данных, при которых возможно однозначное выявление искомой информации. Для таких оценок предложено использовать предельные теоремы теории вероятностей в схеме серий.