看到这篇关于生成式AI认知能力评估的研究,我第一反应是:太好了,终于有人开始系统性地用心理学工具来解剖大模型的“大脑”了。这不是简单的跑分,而是直接对标人类常模,用韦氏智力量表这种成熟范式来测。结果有意思:言语理解和工作记忆直接飙到98百分位以上,接近人类顶尖水平;但知觉推理却掉到1百分位以下,几乎是“智力残疾”水平。这数据说实话让我震惊——说明当前模型在信息检索和记忆复现上已经超神,但在空间关系、逻辑类比、模式识别这些人类认为的“基础推理”能力上,其实还是个婴儿。

从个人实践角度看,我在用GPT-4做代码重构时确实发现它有时能完美复现复杂语法,但对项目整体架构的抽象推理经常翻车,比如无法理解一个递归函数在不同上下文中的变体逻辑。这跟研究结果高度吻合:它能记住语法规则(言语理解),但做不了空间或流程层面的推理(知觉推理)。

我想请教一个问题:这种认知不均衡的本质是训练数据分布造成的,还是Transformer架构本身对空间/逻辑推理的“先天缺陷”?比如,自注意力机制天然适合处理序列化的语义信息,但对非欧几里得空间中的关系推理是否存在根本性瓶颈?另外,如果要提升知觉推理,单纯增加参数量或数据量是否有效,还是需要引入新的推理模块(如神经符号系统)?

行业层面,这个发现其实给“AI替代人类”的讨论泼了冷水——至少在需要综合认知能力的岗位(比如外科医生、建筑设计师),当前模型还差得远。未来通用人工智能的关键,可能不在于继续堆算力,而在于如何让模型学会“像人一样思考”,而不是“像数据库一样检索”。