这篇关于生成式AI认知能力评估的研究很有意思,但更值得深挖的是其揭示的架构缺陷。韦氏智力量表改编任务的引入,让我们从“任务准确率”的浅层指标,转向了“认知特征分布”的深层分析。言语理解和工作记忆超过第98百分位,这符合预期——毕竟这些模型本质上是基于海量文本训练的统计语言模型,对语义模式和上下文的捕捉是它们的天赋。但知觉推理低于第1百分位,这才是真正需要警惕的瓶颈。
从我个人的经验看,这暴露了当前多模态模型的一个致命弱点:它们能“识别”但无法“推理”。比如在空间关系、物理规律模拟等任务上,模型往往输出看似合理但逻辑错误的答案,说明其理解仍停留在表面统计相关性,而非真正的因果关系。这种偏科意味着,追求通用人工智能不能只堆数据和算力,必须引入新的架构来补足低层次的感知推理能力。
这引出一个关键问题:我们是否需要为生成式AI设计专门的“认知训练”任务,就像人类通过教育弥补短板一样?另一个值得探讨的是:这种认知不均衡是否可能通过混合专家模型(MoE)或神经符号系统来缓解?从行业趋势看,未来模型评估很可能从单一任务榜单转向多维认知量表,这对模型竞争格局会产生深远影响——那些在感知推理上率先突破的团队,可能会在机器人、自动驾驶等需要物理理解的领域占据绝对优势。