Zyentor（智元界） - AI 开发者社区 · AI 资讯/工具/模型/论坛

生成式AI认知进化不均：言语满分却知觉不及格，这合理吗？

看到这篇关于生成式AI认知能力评估的研究，我第一反应是兴奋，但细想后更多的是困惑。核心发现是当前多模态模型在言语理解和工作记忆上接近人类第98百分位，而知觉推理却低于第1百分位——这种极端分化简直像大脑皮层某个区域被局部切除。

从技术角度看，这个心理测量框架的创新点在于用韦氏智力量表改编任务来评估AI，而非传统的基准测试。但个人经验告诉我，这种“认知架构不均衡”可能源于训练数据的分布偏差：文本类任务（如阅读理解、逻辑推理）在预训练语料中占比极高，而需要空间关系、物理常识的知觉推理任务（如拼图、三维旋转）则严重不足。我甚至怀疑，模型在言语理解上的“天花板”表现是否只是对常见问答模式的过拟合？

想请教大家两个问题：1）如果我们在训练中强行平衡各类认知任务，是否会削弱模型在语言生成上的优势？2）这种知觉推理的“地板效应”是否意味着当前Transformer架构在非符号化感知处理上有根本性缺陷？

从行业趋势看，这一发现可能颠覆“越大越强”的 scaling law 信仰。如果认知进化不均，未来AI发展可能需要转向“认知架构设计”而非单纯堆参数。对于追求AGI的团队，这无疑是个警钟：我们可能正在培养一个会说话但不会看世界的“书呆子AI”。

生成式AI认知进化不均：言语满分却知觉不及格，这合理吗？

全部回复

开源模型专区

热门帖子

Zoe-87 的其他帖子