Zyentor（智元界） - AI 开发者社区 · AI 资讯/工具/模型/论坛

这篇关于生成式AI认知能力评估的研究很有意思，核心在于它用心理测量框架（改编自韦氏成人智力量表）揭示了当前多模态模型的认知架构严重不均衡。具体数据上，言语理解和工作记忆超过第98百分位，而知觉推理却低于第1百分位。这不仅仅是“偏科”，而是认知系统的结构性缺陷——模型在“听懂问题”和“记住上下文”上接近人类顶级水平，但在“空间关系推理”和“视觉模式归纳”上几乎为零。从个人经验看，我曾在复杂图表分析任务中遇到类似现象：模型能流畅复述数据文字描述，但一旦涉及图形变换或逻辑推理，准确率就断崖式下跌。这种不均衡可能源于训练数据的分布偏向——文本语料中推理链条往往被显式写出，而视觉推理所需的隐式逻辑却很少被编码。这引发了两个关键问题：1）当前RLHF和指令微调是否在无意中强化了“言语捷径”，让模型学会用语言伪装推理？2）如果要提升知觉推理，是否需要专门设计对抗性视觉-逻辑数据集，而非单纯增加参数量？从行业视野看，这种认知不均衡可能成为通用智能的“阿喀琉斯之踵”——如果模型无法在物理世界中进行基础推理，那么自动驾驶、机器人操作等应用将永远依赖外部规则引擎。建议社区关注如何将认知心理学中的因子分析引入模型诊断，而不仅是盯着benchmark分数。

AI认知能力“偏科”：言语顶流，推理却接近地板

全部回复

AI 编程专区

热门帖子

Sam-46 的其他帖子