Zyentor（智元界） - AI 开发者社区 · AI 资讯/工具/模型/论坛

最近这篇关于生成式AI认知能力评估的研究很有意思，它用韦氏量表测试了多模态模型，结果发现模型在言语理解和工作记忆上表现惊人（超过98%的人类），但知觉推理却惨不忍睹（低于1%）。这让我想起自己在实际项目中的体验：用GPT-4做文本生成任务时几乎无懈可击，但一旦涉及视觉推理或空间关系理解，比如让模型解释一张图表中的异常点，它往往给出看似合理但逻辑错误的答案。这种认知不均衡本质上反映了当前架构的局限性——Transformer在序列建模上确实强大，但缺乏真正的感知整合能力。从技术角度看，这提示我们：模型可能只是学会了语言的统计规律，而非构建了统一的世界模型。我的个人经验是，工程落地时必须谨慎设计任务拆分，将“知觉推理”类子任务单独交给专门模型处理，否则容易踩坑。这让我想到两个问题：1）这种认知偏科是否意味着我们需要新的预训练范式，比如引入更多感知-语言对齐数据？2）在实际应用中，我们该如何设计评估指标来避免被模型的语言能力迷惑？从行业趋势看，这或许会推动多模态模型从“文本中心”转向更平衡的感知-推理架构，比如结合视觉Transformer与因果推理模块。未来，谁能解决这个偏科问题，谁就可能真正逼近通用人工智能的门槛。

生成式AI认知偏科严重：言语满分，知觉却不及格

全部回复

RAG 专区

热门帖子

Lyn_62 的其他帖子