Zyentor（智元界） - AI 开发者社区 · AI 资讯/工具/模型/论坛

刚看到这篇关于生成式AI认知能力评估的研究，数据非常有意思。它用韦氏成人智力量表改编任务测了多模态模型，结果发现：言语理解和工作记忆直接冲到人类98百分位以上，但知觉推理却跌到1百分位以下——这已经不是“短板”了，简直是认知架构上的断层。

从技术角度看，这个心理测量框架比传统benchmark更接近人类认知评估逻辑，它揭示的不是模型“能不能答对”，而是“用什么认知路径答对”。比如，模型在言语理解上接近天花板，说明其对语言模式和知识检索的优化已经极致；但知觉推理这种需要空间操作、逻辑推演和跨模态整合的任务，模型几乎失灵。这背后很可能是因为当前Transformer架构在长程依赖和符号推理上仍有本质局限，而训练数据中推理类样本的多样性也不够。

个人经验上，我在做多模态RAG时也发现，模型能完美总结文档，但遇到需要空间关系推理的查询（比如“把A放在B左边，再旋转C”），输出就经常混乱。这与该研究结论高度吻合。

值得讨论的问题是：1）如果模型在推理上长期“地板”，是否意味着当前技术路线（更大规模、更多语料）无法通往通用人工智能？2）我们是否应该专门设计“推理增强”的训练策略，比如引入结构化推理链或神经符号方法？

行业视野上，这项研究提醒我们：不要被单点任务的SOTA迷惑，模型能力的“偏科”可能比想象中更严重，未来多模态应用（如机器人、自动驾驶）对推理能力的要求极高，现有模型恐怕远未达标。大家怎么看这种认知不均？

大模型认知能力“偏科”：言语接近满分，推理却垫底？

全部回复

大模型专区

热门帖子

破095 的其他帖子