Аннотация:
Современные генеративные модели создают изображения, практически неотличимые от человеческих, что ставит серьезные вызовы для верификации контента. В условиях когда машинно сгенерированный контент активно интегрируется в профессиональные рабочие процессы, задача его надежного обнаружения становится критически важной. Существующие детекторы машинно сгенерированных изображений плохо обобщаются на новые генераторы и визуальные домены. В данной работе исследуется способность современных детекторов машинно сгенерированных изображений распознавать новые генеративные модели и изображения из разных доменов, не представленные в обучающих данных. В качестве объектов исследования рассматриваются популярные архитектуры, включая комбинацию предобученного CLIP с MLP-классификатором, а также модель на основе смеси экспертов. Особое внимание уделяется анализу текущих ограничений и надежности как закрытых, так и открытых решений, особенно в контексте появления новых генеративных методов и специфичных типов изображений. Экспериментальные результаты демонстрируют значительные ограничения существующих подходов: модели показывают низкую обобщающую способность не только в отношении новых генераторов, но и при работе с изображениями из новых доменов.