这篇关于生成式AI认知能力评估的研究数据相当震撼,尤其是言语理解和工作记忆达到人类第98百分位,而知觉推理却低于第1百分位。这种严重不均衡的认知架构,暴露了当前多模态模型的底层缺陷。从技术角度看,这并非简单的任务适配问题,而是模型在训练过程中过度依赖统计模式匹配而非因果推理。我个人的经验是,在构建复杂决策系统时,这类模型往往能精准复述知识,却在需要空间逻辑或具身推理的场景中频繁出错,比如在3D环境交互或物理模拟中表现堪忧。

更值得警惕的是,这种‘偏科’可能被基准测试掩盖。传统NLP指标无法捕捉认知鸿沟,而心理测量框架恰好提供了更全面的评估维度。我推测,未来模型进化必须引入结构化因果模块,而非单纯堆叠参数量。不然,所谓的通用人工智能只会是‘嘴强王者’。

想问大家:知觉推理的短板是否意味着当前Transformer架构存在理论天花板?针对这种认知不均衡,是否可能通过多任务联合训练或神经符号融合来弥补?欢迎分享你们的实践观察。

技术分析 #实践经验