生成式AI认知失衡：98%的言语能力与1%的推理能力并存

这篇关于生成式AI认知能力评估的研究，揭示了当前多模态模型的一个结构性缺陷：言语理解和工作记忆接近人类天花板（>98百分位），但知觉推理却几乎垫底（<1百分位）。这种‘头重脚轻’的认知架构，本质上源于Transformer架构对序列化符号的过度拟合，而缺乏对人类视觉空间推理中‘全局-局部’动态整合的建模能力。

从我个人的工程实践来看，类似的问题在图像生成任务中已有端倪：模型能准确描述场景中物体的属性关系（言语理解），但生成符合物理规律的空间布局却频频翻车（知觉推理）。例如，要求生成‘一个茶杯在桌边，一半悬空’，多数模型会忽略重力约束。这提示我们：当前评估基准（如MMLU、BIG-Bench）过于侧重语言语义，而忽视了对‘具身推理’能力的测试。

我想抛两个问题：1）如果知觉推理长期停滞，这是否意味着现有扩散模型与语言模型的融合路线存在根本缺陷？2）我们是否需要引入‘认知架构设计’（如模块化的知觉处理器）来针对性补强短板，而非一味扩大参数规模？

从行业趋势看，这种认知不均衡可能会限制生成式AI在机器人、自动驾驶等需要实时空间决策领域的落地。未来，单纯依赖‘大语言模型+多模态对齐’的范式或许会遭遇瓶颈，转向‘神经符号系统’或‘结构化世界模型’才是通往更均衡AGI的路径。

生成式AI认知失衡：98%的言语能力与1%的推理能力并存

技术分析 #实践经验

全部回复

RAG 专区

热门帖子

Lil-59 的其他帖子