Аннотация:
Обнаружение плагиата является критически важной задачей в различных областях, включая академические публикации, журналистику, электронную коммерцию и верификацию медиа. В то время как значительное внимание уделяется выявлению текстовых заимствований, плагиат изображений, особенно в биологии и медицине, остается серьезной проблемой. Автоматизированные системы поиска часто выдают множество потенциальных кандидатов, но высокий уровень ложноположительных срабатываний – пар изображений, ошибочно помеченных как плагиат – требует высокоточного попарного сравнения для верификации. Ручные изменения изображений, такие как повороты, отражения, преобразование в оттенки серого и искажение цветов являются формами плагиата. Настоящая работа направлена на решение проблемы минимизации уровня ложноположительных срабатываний при оценке близости изображений путем тщательного анализа моделей оценки сходства. Предложенный подход основан на использовании сиамской сети с тремя ключевыми компонентами: кодировщиком, симметричным модулем объединения с инвариантностью порядка комбинирования эмбеддингов и классификатором сходства. Обучение модели осуществляется с использованием стратегии самообучения, включающей аугментации, имитирующие способы фальсификации изображений. При этом применяется гибридная функция потерь, сочетающая кросс-энтропию и контрастивную регуляризацию. Проводится анализ и сравнение различных архитектур кодировщиков и стратегий объединения эмбеддингов. Для сравнения с предложенным решением рассматриваются идентичные сиамские архитектуры, использующие предобученные современные представления Barlow Twins и CLIP, при этом модуль объединения эмбеддингов и голова классификации обучаются аналогичным образом. Валидация на изображениях из различных доменов показывает, что обучение модели целиком превосходит подходы, использующие замороженные современные представления.