Аннотация:
Обнаружение аномалий на видео с помощью компьютерного зрения все еще нуждается в совершенствовании, особенно при распознавании изображений с необычными движениями или объектами. Современные подходы в основном сосредоточены на методах реконструкции и прогнозирования, а обнаружение аномалий на видео без наблюдения сталкивается с трудностями из-за отсутствия достаточного количества помеченных аномалий, что снижает точность. В этой статье представлена новая структура под названием усовершенствованная UNET (I-UNET), разработанная для противодействия переобучению путем удовлетворения потребности в сложных моделях, которые могут извлекать малозаметную информацию из аномалий на видео. Видеошум можно устранить путем предварительной обработки кадров фильтром Винера. Более того, система использует сверточные слои долго-кратковременной памяти (ConvLSTM) для плавной интеграции временных и пространственных данных в свои части энкодера и декодера, улучшая точность идентификации аномалий. Последующая обработка осуществляется с использованием техники каскадного скользящего окна (CSWT) для идентификации аномальных кадров и генерации оценок аномалии. По сравнению с базовыми подходами, экспериментальные результаты на наборах данных UCF, UCSDped1 и UCSDped2 демонстрируют заметные улучшения производительности, с точностью 99%, площадью под кривой (AUC) 90,8% и равным уровнем ошибок (EER) 10,9%. Это исследование предоставляет надежную и точную структуру для обнаружения аномалий на видео с наивысшим уровнем точности.