RUS  ENG
Полная версия
СЕМИНАРЫ

Цвет, математика и искусственный интеллект
23 октября 2025 г. 17:00, г. Москва, Большой Каретный пер., д.19 стр.1, ауд. 615


Как видят цвет мультимодальные большие языковые нейронные сети?

Г. Р. Лобарев

Институт проблем передачи информации им. А. А. Харкевича Российской академии наук, г. Москва

Аннотация: Современные мультимодальные модели — такие как Qwen-VL, LLaVA или GPT— объединяют язык и зрение, чтобы «понимать» мир ближе к человеку. Но насколько это понимание действительно перцептивно? Особенно в такой тонкой области, как цвет: ведь для человека он — не RGB-код, более абстрактное ощущение, зависящее от контекста, освещения и даже эмоций.
На семинаре мы поговорим о том, как устроено цветовое пространство внутри MLLM и сравним его с психофизическим пространством человека: извлекаются ли визуальные энкодеры (ViT) достаточно точные представления? И главное — вносит ли языковой блок (LLM) коррекцию, приближающую восприятие модели к человеческому? Мы представим результаты анализа эмбеддингов Qwen-VL на основе классических психофизических данных — шкалы Манселла действительно ли «язык помогает видеть».


© МИАН, 2025