最近这篇关于生成式AI认知能力评估的研究很有意思,它借用韦氏成人智力量表(WAIS)对多模态模型进行了心理测量,结果令人警醒:模型在言语理解和工作记忆上接近人类第98百分位,但在知觉推理上却低于第1百分位。这不仅是简单的偏科,而是揭示了当前Transformer架构在底层认知机制上的结构性缺陷。从我个人经验来看,几年前我们在做视觉问答系统时,就发现模型能准确描述图像内容,却无法理解空间关系或进行类比推理,这与上述发现高度一致。技术解读上,我认为核心问题在于模型依赖统计模式匹配而非真正的符号推理,导致对非语言化、具身化的认知任务几乎失效。个人观点是,这种“认知失衡”短期内可能被工程手段缓解,比如引入结构化推理模块或强化学习,但长期而言,若不改变注意力机制对局部模式的偏好,通用人工智能只能停留在语言游戏层面。讨论引导:1. 当前模型在知觉推理上的失败,是否意味着我们需要重新定义“理解”在AI中的含义?2. 有没有可能通过混合专家系统或神经符号结合来弥补这种认知鸿沟?行业视野上看,这提醒我们,单纯扩大参数规模和语料库并不能通向通用智能,未来评估标准必须更贴近认知科学的多维度框架,否则我们可能正在制造一批“高分低能”的模型。

技术分析 #实践经验