Аннотация:
При распознавании рабочих на изображениях строительной площадки, получаемых с камер наблюдения, типичной является ситуация, при которой объекты детекции имеют сильно различающийся пространственный масштаб
относительно друг друга и других объектов. Повышение точности детекции мелких объектов может быть обеспечено путем использования Feature-Fused модификации детектора SSD (Single Shot Detector). Вместе с применением
на инференсе нарезки изображения с перекрытием такая модель хорошо справляется с детекцией мелких объектов.
Однако при практическом использовании данного подхода требуется ручная настройка параметров нарезки. При этом
снижается точность детекции объектов на сценах, отличающихся от сцен, использованных при обучении, а также
крупных объектов. В данной работе предложен алгоритм автоматического выбора оптимальных параметров нарезки
изображения в зависимости от соотношений характерных геометрических размеров объектов на изображении. Нами
разработан двухпроходной вариант детектора Feature-Fused SSD для автоматического определения параметров нарезки изображения. На первом проходе применяется усеченная версия детектора, позволяющая определять характерные
размеры объектов интереса. На втором проходе осуществляется финальная детекция объектов с параметрами нарезки, выбранными после первого прохода. Был собран датасет с изображениями рабочих на строительной площадке.
Датасет включает крупные, мелкие и разноплановые изображения рабочих. Для сравнения результатов детекции для
однопроходного алгоритма без разбиения входного изображения, однопроходного алгоритма с равномерным разбиением и двухпроходного алгоритма с подбором оптимального разбиения рассматривались тесты по детекции отдельно
крупных объектов, очень мелких объектов, с высокой плотностью объектов как на переднем, так и на заднем плане,
только на заднем плане. В диапазоне рассмотренных нами случаев наш подход превосходит подходы, взятые в сравнение, позволяет хорошо бороться с проблемой двойных детекций и демонстрирует качество 0,82–0,91 по метрике
mAP (mean Average Precision).