![]() |
|
СЕМИНАРЫ |
Цвет, математика и искусственный интеллект
|
|||
|
Как видят цвет мультимодальные большие языковые нейронные сети? Г. Р. Лобарев Институт проблем передачи информации им. А. А. Харкевича Российской академии наук, г. Москва |
|||
Аннотация: Современные мультимодальные модели — такие как Qwen-VL, LLaVA или GPT— объединяют язык и зрение, чтобы «понимать» мир ближе к человеку. Но насколько это понимание действительно перцептивно? Особенно в такой тонкой области, как цвет: ведь для человека он — не RGB-код, более абстрактное ощущение, зависящее от контекста, освещения и даже эмоций. На семинаре мы поговорим о том, как устроено цветовое пространство внутри MLLM и сравним его с психофизическим пространством человека: извлекаются ли визуальные энкодеры (ViT) достаточно точные представления? И главное — вносит ли языковой блок (LLM) коррекцию, приближающую восприятие модели к человеческому? Мы представим результаты анализа эмбеддингов Qwen-VL на основе классических психофизических данных — шкалы Манселла действительно ли «язык помогает видеть». |