Аннотация:
Изменение свойств собираемых данных часто называют дрейфом данных (различные варианты смещения характеристик данных). Существование дрейфа в данных обучения системы искусственного интеллекта часто приводит к снижению эффективности машинного обучения (МО) и построенных на этих данных ошибочных решениях систем искусственного интеллекта (ИИ). В связи с этим проблемы выявления дрейфа в данных МО, момента образования дрейфа и последствий изменений данных обучения становятся актуальными. Предложен метод выявления дрейфа вероятностного распределения в произвольном метрическом пространстве большой размерности. Метод опирается на различие неизвестных вероятностных распределений в разных областях исходного пространства в случае наличия дрейфа. Рассмотрена модель дрейфа, состоящая из двух отличных друг от друга распределений вероятностей. Использование в основе метода шаров в метрическом пространстве позволяет создать эффективный алгоритм вычисления принадлежности точек данных одному из шаров, связанных с различными распределениями модели дрейфа. Это обстоятельство представляется существенным для выявления дрейфа распределения в пространстве большой размерности.