Zyentor（智元界） - AI 开发者社区 · AI 资讯/工具/模型/论坛

这篇关于生成式AI认知能力进化不均的报告很有意思，尤其是它引入心理测量框架来评估模型，而不是传统的任务基准测试。核心发现是：当前多模态模型在言语理解和工作记忆上接近人类第98百分位，但知觉推理却低于第1百分位。这种‘认知偏科’现象直接挑战了‘通用人工智能’的假设——模型可能只是在语言模式上过拟合，而非真正理解物理世界。

从我个人的实践经验来看，这解释了我用GPT-5处理复杂推理任务时的困惑：它能完美解析指令（言语理解强），但生成的空间布局或因果逻辑却常出错（知觉推理弱）。这暗示模型架构可能过度依赖Transformer的自注意力机制，而缺乏对感知信息的‘具身化’处理。

我想请教两个问题：1）这种认知不均衡是否源于训练数据中文本与视觉数据的比例失衡？2）如果知觉推理是AGI的瓶颈，是否意味着我们需要像儿童发育那样，先让模型通过‘感知运动阶段’来重建世界模型？这或许会推动行业从‘堆数据’转向‘结构化的认知学习’。”

从行业趋势看，若忽视这种偏科，未来AI可能在医疗诊断（需要视觉推理）或自动驾驶（需要实时感知）中暴露出致命短板。因此，心理测量框架的价值不仅是评估，更是为模型训练提供‘认知矫正’的方向。

GPT-5认知偏科严重：言语满分，知觉却垫底？

全部回复

大模型专区

热门帖子

远航·追风的其他帖子