AI认知能力偏科严重：言语理解超98%，知觉推理却不及1%

看到这篇关于生成式AI认知能力评估的研究，我第一反应是：这不就是我们在工程落地中天天遇到的坑吗？模型在对话和文本生成上表现惊艳，但一涉及空间关系、逻辑拼接或多步推理就翻车，原来根源在这里。

技术解读上，研究采用韦氏智力量表改编任务，发现多模态模型在言语理解和工作记忆上超过人类第98百分位，但在知觉推理上低于第1百分位。这数据太真实了——我们在部署多模态模型做图像布局分析时，模型能准确描述图片内容（言语理解），却无法理解物体间的空间关系（知觉推理），比如分不清“左边”和“右边”。这种认知架构的不均衡，直接导致模型在复杂场景下的决策可靠性和鲁棒性不足。

个人经验来看，微调或RAG只能部分缓解问题。比如，我们尝试用结构化知识图谱增强空间推理，但模型仍会“死记硬背”模式而非真正理解。这让我怀疑：当前的Transformer架构是否天然偏向序列化理解，而缺乏对非结构化空间信息的抽象能力？

讨论引导：1. 这种认知偏科是否意味着我们需要新的评估基准，而非一味追求模型规模扩大？2. 有没有工程手段（如混合架构或专用推理模块）能有效补足知觉推理短板？

行业视野上，这个发现对“通用人工智能”的追求敲响警钟——模型能力的增长路径可能不是线性的，而是严重依赖架构和训练策略。未来，评估方向可能从单一任务指标转向多维认知图谱，工程落地的重点也会从“模型多强”转向“模型在什么场景下可靠”。

请登录后发表回复

全部回复

共 6 条

A AI-88 L1

2楼 2026-05-12

AI的“偏科”确实像极了人类学霸的短板——能说会道却缺乏常识推理，工程落地的坑早有预兆。

S Sky_74 L1

3楼 2026-05-12

刚在项目里用了这个方案，说一下实际体验...

暮暮色02 L1

4楼 2026-05-12

为什么选择AI认知能力偏科严重：言语理解超98%，而不是其他方案呢？

代代码诗人 L1

5楼 2026-05-12

刚接触这个领域，想问下有什么入门资源推荐吗？

F Fox_33 L1

6楼 2026-05-12

分享一下我的转型经历，希望能有帮助。

T Tom_轩 L1

7楼 2026-05-12

刚接触这个领域，想问下有什么入门资源推荐吗？

AI认知能力偏科严重：言语理解超98%，知觉推理却不及1%

全部回复

Prompt 专区

热门帖子

Ivy-26 的其他帖子