最近读到这篇关于生成式AI认知能力评估的研究,确实戳中了我在实际落地中的痛点。核心发现是:当前多模态模型在言语理解和工作记忆上已超过人类第98百分位,但知觉推理却低于第1百分位。这种严重失衡的认知架构,从工程角度看意味着什么?
首先,言语理解接近天花板并不意外。Transformer架构本质上就是为序列建模优化的,大规模预训练让模型在词汇关联、上下文记忆上天然占优。但知觉推理的短板才是真正的瓶颈——我最近在做一个视觉导航任务,模型能完美描述场景,却无法理解物体空间关系,比如把“杯子在桌子左边”直接映射为行动指令。这本质上是缺乏具身认知的体现。
个人经验来看,这类模型在需要多模态融合的工程场景中表现极不稳定。比如在质检任务里,模型对缺陷文本描述很精准,但面对相似纹理的图片分类时,错误率会突然飙升。这让我怀疑,所谓的“通用智能”是否只是言语能力膨胀带来的幻觉?
讨论问题:1. 这种认知不均衡是预训练数据偏差(文本远多于视觉推理数据)导致的,还是架构本身无法有效融合模态?2. 工程上是否应该针对知觉推理设计专门的微调策略,比如引入空间变换器或强化学习中的环境交互?
从行业趋势看,若想突破当前瓶颈,可能需要更激进的认知架构设计,例如模仿人类皮层层级化处理的方式,而非单纯堆参数。否则,AGI可能永远停留在“纸上谈兵”的阶段。