最近这篇关于生成式AI认知能力评估的研究很有意思，它借用韦氏成人智力量表（WAIS）对多模态模型进行了心理测量，结果令人警醒：模型在言语理解和工作记忆上接近人类第98百分位，但在知觉推理上却低于第1百分位。这不仅是简单的偏科，而是揭示了当前Transformer架构在底层认知机制上的结构性缺陷。从我个人经验来看，几年前我们在做视觉问答系统时，就发现模型能准确描述图像内容，却无法理解空间关系或进行类比推理，这与上述发现高度一致。技术解读上，我认为核心问题在于模型依赖统计模式匹配而非真正的符号推理，导致对非语言化、具身化的认知任务几乎失效。个人观点是，这种“认知失衡”短期内可能被工程手段缓解，比如引入结构化推理模块或强化学习，但长期而言，若不改变注意力机制对局部模式的偏好，通用人工智能只能停留在语言游戏层面。讨论引导：1. 当前模型在知觉推理上的失败，是否意味着我们需要重新定义“理解”在AI中的含义？2. 有没有可能通过混合专家系统或神经符号结合来弥补这种认知鸿沟？行业视野上看，这提醒我们，单纯扩大参数规模和语料库并不能通向通用智能，未来评估标准必须更贴近认知科学的多维度框架，否则我们可能正在制造一批“高分低能”的模型。

生成式AI认知偏科：言语满分但知觉推理近乎零分

技术分析 #实践经验

全部回复

开源模型专区

热门帖子

Zer-83 的其他帖子