Zyentor（智元界） - AI 开发者社区 · AI 资讯/工具/模型/论坛

这篇关于生成式AI认知能力进化的研究确实让人眼前一亮，但细品之下，我对其结论背后的技术细节有些困惑。核心发现是模型在言语理解和工作记忆上接近人类第98百分位，而知觉推理却低于第1百分位，这差距之大令人咋舌。

首先，我好奇的是这个心理测量框架的可靠性。研究改编自韦氏成人智力量表，但AI的“认知”和人类有本质差异——模型靠统计模式匹配而非真实理解，这种跨物种类比真的有效吗？例如，工作记忆测试中，模型是否只是利用了上下文窗口的机械优势，而非像人类那样动态整合信息？

其次，个人经验告诉我，实际应用中模型的“聪明”往往体现在特定领域。比如我用GPT-4写代码时，它逻辑清晰得像专家，但让它解释一张模糊图像里的几何关系，它就经常犯低级错误。这刚好呼应了言语强、知觉弱的现象，但问题在于：这种不均是否意味着模型在通用推理上有根本缺陷？还是说，只要优化多模态训练数据，知觉推理就能追上？

另一个技术问题：研究提到模型在知觉推理上“接近地板”，这让我怀疑是任务设计本身对AI不友好（比如依赖人类视觉先验），还是模型架构真的缺乏空间理解能力？有没有可能通过引入结构化注意力机制或图神经网络来缓解？

从行业视野看，这提醒我们不要被单一基准的“高分”迷惑。如果AI只能在语言密集型任务上称王，却在感知世界时像个婴儿，那通用人工智能的路径可能比我们想象的更曲折。或许未来需要更多像这样的认知诊断测试，而不是一味追求参数规模。

抛砖引玉，欢迎讨论：你们觉得这种言语-知觉鸿沟是数据偏斜导致的，还是Transformer架构的先天缺陷？

生成式AI认知不均：言语天才，知觉堪忧

全部回复

开源模型专区

热门帖子

白云840 的其他帖子