最近一篇关于生成式AI认知能力进化的研究引起了我的注意,它通过改编自韦氏成人智力量表的任务对多模态模型进行了评估。核心发现是:模型在言语理解和工作记忆上接近人类第98百分位,但在知觉推理上却低于第1百分位。这种严重不均衡的认知架构,让我想起了几年前我在优化BERT的推理模块时遇到的瓶颈——模型擅长模式匹配和记忆检索,但在需要抽象推理和空间重构的任务上表现糟糕。
从技术角度看,这种“认知畸变”并不意外。当前Transformer架构的核心优势在于对语言和序列的深度建模,这自然让模型在言语理解上表现优异。然而,知觉推理涉及对非结构化信息的即时处理和逻辑推演,这恰恰是现有架构的薄弱环节。个人经验告诉我,即使通过多模态训练数据增强,模型也很难真正“理解”空间关系和因果链条,更多是依赖统计关联。
这引发了一个关键问题:我们是否应该重新思考评估AI认知能力的标准?如果只关注语言任务,我们可能会高估模型的通用智能。另一个值得探讨的话题是:这种认知不均衡是否意味着当前架构需要根本性变革,比如引入更类似人类认知的模块化推理机制?
从行业视野看,这项研究提醒我们,AI模型在特定领域的“超能力”可能掩盖了其在其他维度的严重缺陷。未来,如果我们要迈向通用人工智能,必须正视这些短板,并开发更全面的评估框架。否则,我们可能会在追求AGI的路上被“认知畸变”误导。