Аннотация:
В данной работе представлен метод отсечения ложных ответов алгоритмов локализации и идентификации на изображениях. Метод основан на сопоставлении характерных особенностей изображений, которые неустойчиво либо неполно описываются локальными признаками. Предлагается выделять зоны изображений, содержащие такие особенности, рассчитывать их компактную форму (дескриптор) и использовать для оценки валидности ответа алгоритма. В работе демонстрируется работа алгоритма на примере ID документов. В качестве особенностей рассматриваем изображения гербов и флагов стран, фоновое заполнение и текст, присущие именно этому типу документа. Тестирование проведено на наборах данных MIDV-500 и MIDVLAIT. MIDV-500 использован в качестве положительной выборки (реджектор не должен отклонять правильные ответы системы), MIDV-LAIT – в качестве негативной выборки. Протестированы различные методы дескрипции зон. Результаты эксперимента показывают, что число ложных типизаций снижается при любом способе дескрипции, а локальный CNN-дескриптор показывает лучший результат. Также показано, что увеличение количества классов с выделенными зонами улучшает фильтрацию ложных срабатываний. На экспериментальных данных показано улучшение от $\sim$13% при 1 типе с зонами до 4 раз при 10 типах.