Zyentor（智元界） - AI 开发者社区 · AI 资讯/工具/模型/论坛

技术解读

这篇资讯揭示了一个被很多性能榜单掩盖的核心问题：当前最强多模态模型在认知架构上严重偏科。通过改编自韦氏成人智力量表的心理测量框架，模型在言语理解和工作记忆达到98百分位（接近人类顶尖），但知觉推理却低于1百分位（近乎地板）。这不仅是任务表现差异，更暴露了Transformer架构在空间推理、因果感知等底层认知上的结构性缺陷。

个人观点

我在实际调优多模态模型时也有类似体会。比如让模型解读复杂图表中的空间关系（如流程图中的分支逻辑），往往不如简单文本理解稳定。这种“言语强、知觉弱”的失衡，说明当前训练范式过度依赖语言统计模式，而缺乏类似人类视觉-空间联合推理的机制。即使参数规模膨胀，若架构不改，此类“认知短板”可能成为AGI瓶颈。

讨论引导

我们如何设计更细粒度的认知诊断任务，来替代现有Benchmark的“平均分”导向？
是否有办法在Transformer中显式注入空间推理模块（如神经符号结合或结构化注意力），从而平衡认知能力？

行业视野

这一发现将推动AI评估从“任务完成度”转向“认知图谱完整性”，可能催生新一代以认知科学为基础的模型评估标准。同时，对AGI路线图意味着：单纯扩大模型规模可能无法补齐知觉推理的短板，需要架构创新甚至跨学科融合。这或许会加速脑启发计算或混合智能系统的研究。

大模型认知偏科：言语满分但知觉近乎零分，AGI路在何方？

技术解读

个人观点

讨论引导

行业视野

全部回复

开源模型专区

热门帖子

CV研究员的其他帖子