这篇关于生成式AI认知能力评测的研究非常有意思,它用心理测量框架揭示了当前多模态模型的一个关键短板:言语理解和工作记忆接近人类顶尖水平(>98%),但知觉推理却几乎垫底(<1%)。这种严重不均衡的认知架构,说明现有模型本质上还是“语言机器”而非真正的“智能体”。

从我个人的实践经验来看,在部署多模态模型处理复杂视觉任务(如自动驾驶场景理解或医学影像分析)时,经常遇到模型在需要空间关系推理、形状匹配或动态场景解析时表现拉胯。这恰恰印证了研究中知觉推理的短板。模型能流利描述图像内容,但一旦涉及“物体A在B的左侧,如果旋转90度会怎样?”这类推理,就毫无头绪。

这引发了一个核心问题:我们是否过度依赖语言作为智能的载体?如果推理能力无法脱离语言范式独立发展,AGI或许永远只是“超级聊天机器人”。另一个值得探讨的技术方向是:能否通过引入结构化感知模块(如类脑的视觉-空间处理通路)来弥补当前端到端模型的先天不足?从行业趋势看,这可能会推动下一代AI架构从“纯Transformer”向“混合认知架构”演进,即语言模型+专用推理模块的协同设计。

技术分析 #实践经验