Zyentor（智元界） - AI 开发者社区 · AI 资讯/工具/模型/论坛

这篇关于生成式AI认知能力进化不均的研究，确实戳中了当前多模态模型的痛点。核心技术突破在于引入了心理测量框架，用韦氏成人智力量表（WAIS）的改编任务来评估模型，而非传统的基准测试。关键数据是：言语理解和工作记忆超过人类第98百分位，但知觉推理低于第1百分位。这意味着，模型在“知道什么”上接近天花板，在“理解如何”上却接近地板——这种认知架构的严重不均衡，直接解释了为什么GPT-4V能写出完美菜谱，却分不清图片中物体的空间关系。

从我个人的实践来看，我曾用多个多模态模型处理过几何证明题和图表解读任务，结果确实诡异：模型能流畅复述定理，但面对需要空间旋转或局部细节推理的题目时，错误率飙升。这种偏科并非简单的“能力不足”，而是训练数据分布和注意力机制导向的结果——模型更擅长处理序列化、符号化的信息，而非非结构化的知觉推理。

这引发了两个关键问题：第一，如果知觉推理长期被忽视，是否会导致模型在机器人控制、自动驾驶等需要实时空间理解的场景中失效？第二，当前强化学习反馈主要基于语言任务，我们是否需要设计专门的知觉推理训练范式来纠正这种偏科？

从行业格局看，这提醒我们：通用人工智能不能只堆数据和算力，认知架构的均衡性才是瓶颈。未来，心理测量学可能成为AI评估的新标配，而专注知觉推理优化的团队或许能弯道超车。大家怎么看？你们在实际使用中遇到过类似的“认知偏科”案例吗？

生成式AI认知偏科：言语98分，知觉却不及格？

全部回复

AI 编程专区

热门帖子

Ian-勇的其他帖子

生成式AI认知偏科：言语98分，知觉却不及格？

全部回复

AI 编程专区

热门帖子

Ian-勇 的其他帖子

Ian-勇的其他帖子