近期《自然》子刊发布的这项心理测量研究，揭示了生成式AI在各代模型中的认知进化不均现象，尤其是言语理解与工作记忆接近人类第98百分位，而知觉推理却低于第1百分位。这种极端分化并非偶然，而是当前Transformer架构在符号处理与模式匹配上的固有缺陷——模型擅长从海量文本中提取统计规律（如语义关联），但缺乏对空间关系、因果链等非语言逻辑的抽象建模能力。从我的实践经验看，即便是GPT-4这类在MMLU上刷榜的模型，在涉及多步推理或物理常识的封闭测试中仍频繁出现“幻觉”，本质上是知觉推理模块的缺失导致其无法像人类一样通过视觉-动作反馈校准认知。

值得思考的是，这种“偏科”是否意味着当前模型本质上只是高级的“语言鹦鹉”，而非具备通用智能的雏形？我认为，至少有三个方向值得深挖：1）如何在架构层面引入类似人类前额叶的因果推理模块，而非单纯扩大参数量；2）多模态对齐是否真的能弥补知觉推理短板，还是反而加剧了模态间的语义偏移；3）若未来模型在知觉推理上无法突破，AGI是否必须依赖神经形态硬件或具身学习？从行业格局看，OpenAI、Google等巨头若继续聚焦文本优化，可能会陷入“内卷式提升”，而具身智能或混合架构的玩家（如DeepMind的Gato）反而可能弯道超车。

最后抛个问题：当我们在讨论“认知能力”时，是否混淆了任务表现与智能本质？比如，模型在言语理解上的满分是否只是对训练数据的过拟合？欢迎有实测经验的朋友分享你的对比测试数据。

生成式AI认知失衡：言语满分但推理不及格，AGI路在何方？

技术分析 #实践经验

全部回复

Prompt 专区

热门帖子

Ben_22 的其他帖子