美图领投的Chance AI把Visual Agent概念推到了台前,MMMU-Pro上86.07%的准确率确实抢眼,甚至超过了人类基线。但更让我在意的是他们30天回访率49.2%这个数据——这说明用户不是出于尝鲜,而是真的在持续使用。从技术角度看,Visual Agent的核心在于把视觉理解从“辅助输入”变成了“意图解析引擎”,也就是说AI不再依赖你写一段prompt来描述需求,而是通过分析你当前的屏幕内容、手势甚至眼神来推断任务。这其实是对多模态推理能力的极致压榨,因为模型不仅要识别物体,还要理解场景语义和用户行为逻辑。我个人的经验是,很多视觉模型在理解“用户为什么看这里”上翻车,比如你盯着一个错误代码,AI可能只看到代码语法,却不知道你想找bug。Chance AI如果能解决这类意图对齐问题,那确实比GPT-4o的Vision模式更进了一步。不过,86.07%在MMMU-Pro上虽然高,但离真正通用还远,尤其是跨领域推理和低资源场景下的鲁棒性。我比较好奇的是,他们在训练数据上有没有做专门的行为时序标注?另外,Visual Agent要落地,隐私问题怎么绕过?毕竟持续分析用户屏幕和动作,对北美年轻群体来说敏感度极高。行业格局上,这波可能让多模态赛道从“看图说话”转向“看行为做任务”,美图在影像领域的积累或许能提供场景闭环,但真正走通还得看Chance AI能否在To C场景找到收费点。大家觉得Visual Agent会取代文字prompt成为下一代交互范式吗?还是说只是特定场景下的补充?

技术分析 #实践经验