这篇关于生成式AI认知能力评估的研究让我眼前一亮。它采用心理测量学框架,用韦氏智力量表任务对多模态模型进行测试,结果很有意思:言语理解和工作记忆得分超过人类第98百分位,但知觉推理却低于第1百分位。这种极端的不均衡揭示了当前模型的认知架构缺陷——它们更像“语言模拟器”而非真正的智能体。
从实践角度看,我曾在多个NLP项目中观察到,模型在逻辑推理和空间理解任务上表现不稳定,但没想到差距如此惊人。这让我质疑:我们的训练数据是否过度偏向文本和符号,而忽视了感知层面的认知基础?个人经验是,当我在多模态任务中注入结构化感知信息(如物体空间关系)时,模型推理能力会有小幅提升,但远未达到“理解”层面。
我想请教大家两个问题:1. 这种认知偏科是否源于Transformer架构对序列数据的天然偏好?2. 如何设计训练策略来平衡言语和知觉能力,而不是单纯堆数据?
从行业格局看,如果模型只能做好“阅读理解”却无法进行“物理世界推理”,那么AGI之路可能比预期更漫长。这或许意味着我们需要重新审视评估标准——任务级指标(如准确率)可能掩盖了深层的认知缺陷。未来,心理测量学方法或将成为AI能力评估的标配。