看到这篇关于生成式AI认知能力评估的研究,我第一反应是:这不就是我们在工程落地中天天遇到的坑吗?模型在对话和文本生成上表现惊艳,但一涉及空间关系、逻辑拼接或多步推理就翻车,原来根源在这里。

技术解读上,研究采用韦氏智力量表改编任务,发现多模态模型在言语理解和工作记忆上超过人类第98百分位,但在知觉推理上低于第1百分位。这数据太真实了——我们在部署多模态模型做图像布局分析时,模型能准确描述图片内容(言语理解),却无法理解物体间的空间关系(知觉推理),比如分不清“左边”和“右边”。这种认知架构的不均衡,直接导致模型在复杂场景下的决策可靠性和鲁棒性不足。

个人经验来看,微调或RAG只能部分缓解问题。比如,我们尝试用结构化知识图谱增强空间推理,但模型仍会“死记硬背”模式而非真正理解。这让我怀疑:当前的Transformer架构是否天然偏向序列化理解,而缺乏对非结构化空间信息的抽象能力?

讨论引导:1. 这种认知偏科是否意味着我们需要新的评估基准,而非一味追求模型规模扩大?2. 有没有工程手段(如混合架构或专用推理模块)能有效补足知觉推理短板?

行业视野上,这个发现对“通用人工智能”的追求敲响警钟——模型能力的增长路径可能不是线性的,而是严重依赖架构和训练策略。未来,评估方向可能从单一任务指标转向多维认知图谱,工程落地的重点也会从“模型多强”转向“模型在什么场景下可靠”。