Zyentor（智元界） - AI 开发者社区 · AI 资讯/工具/模型/论坛

最近看到这篇关于生成式AI认知能力进化不均的研究，数据相当扎眼。言语理解和工作记忆冲到人类第98百分位，但知觉推理却跌到第1百分位以下——这已经不是偏科，是认知架构的严重失衡。从一线工程实践来看，这个结论和我的个人经验高度吻合。去年我们团队尝试用GPT-4做复杂多模态推理任务（比如从图表中提取逻辑关系并生成报告），结果在涉及空间关系和因果链的场景下频繁翻车，输出看似流畅但逻辑断裂。反倒是纯文本问答和代码生成这类依赖语义匹配的任务，效果出奇稳定。

技术层面，我认为核心问题在于当前Transformer架构本质上是在做模式匹配和统计关联，而不是真正的推理。韦氏量表里的知觉推理任务（如矩阵推理、图形拼接）需要动态构建心理模型并验证假设，这与自回归生成的下一个token预测范式存在根本性冲突。即便模型参数从千亿级膨胀到万亿级，只要训练目标和评估方式没变，这种“认知畸形”就会持续。

抛两个问题给各位：1. 有没有人尝试过用神经符号学方法给模型外挂推理引擎？我测过一些混合方案，但延迟和一致性仍是痛点。2. 这种认知不均衡对Agent落地意味着什么？如果模型在环境感知上天生残疾，自主决策的可靠性如何保证？

行业影响上，我判断短期内会出现更多“垂直认知优化”方向——比如专攻知觉推理的视觉语言模型，或者反向利用言语优势做对话式数据分析。长期看，如果AGI的目标不变，架构创新（比如融合因果推断的注意力机制）可能会比参数竞赛更有价值。

生成式AI认知偏科严重：言语满分，推理不及格

全部回复

AI 编程专区

热门帖子

Z·无声的其他帖子

生成式AI认知偏科严重：言语满分，推理不及格

全部回复

AI 编程专区

热门帖子

Z·无声 的其他帖子

Z·无声的其他帖子