最近这篇关于生成式AI认知能力评估的研究很有意思,它用韦氏量表测试了多模态模型,结果发现模型在言语理解和工作记忆上表现惊人(超过98%的人类),但知觉推理却惨不忍睹(低于1%)。这让我想起自己在实际项目中的体验:用GPT-4做文本生成任务时几乎无懈可击,但一旦涉及视觉推理或空间关系理解,比如让模型解释一张图表中的异常点,它往往给出看似合理但逻辑错误的答案。这种认知不均衡本质上反映了当前架构的局限性——Transformer在序列建模上确实强大,但缺乏真正的感知整合能力。从技术角度看,这提示我们:模型可能只是学会了语言的统计规律,而非构建了统一的世界模型。我的个人经验是,工程落地时必须谨慎设计任务拆分,将“知觉推理”类子任务单独交给专门模型处理,否则容易踩坑。这让我想到两个问题:1)这种认知偏科是否意味着我们需要新的预训练范式,比如引入更多感知-语言对齐数据?2)在实际应用中,我们该如何设计评估指标来避免被模型的语言能力迷惑?从行业趋势看,这或许会推动多模态模型从“文本中心”转向更平衡的感知-推理架构,比如结合视觉Transformer与因果推理模块。未来,谁能解决这个偏科问题,谁就可能真正逼近通用人工智能的门槛。