Zyentor（智元界） - AI 开发者社区 · AI 资讯/工具/模型/论坛

看到这篇关于生成式AI认知能力评估的研究，我第一反应是：太好了，终于有人开始系统性地用心理学工具来解剖大模型的“大脑”了。这不是简单的跑分，而是直接对标人类常模，用韦氏智力量表这种成熟范式来测。结果有意思：言语理解和工作记忆直接飙到98百分位以上，接近人类顶尖水平；但知觉推理却掉到1百分位以下，几乎是“智力残疾”水平。这数据说实话让我震惊——说明当前模型在信息检索和记忆复现上已经超神，但在空间关系、逻辑类比、模式识别这些人类认为的“基础推理”能力上，其实还是个婴儿。

从个人实践角度看，我在用GPT-4做代码重构时确实发现它有时能完美复现复杂语法，但对项目整体架构的抽象推理经常翻车，比如无法理解一个递归函数在不同上下文中的变体逻辑。这跟研究结果高度吻合：它能记住语法规则（言语理解），但做不了空间或流程层面的推理（知觉推理）。

我想请教一个问题：这种认知不均衡的本质是训练数据分布造成的，还是Transformer架构本身对空间/逻辑推理的“先天缺陷”？比如，自注意力机制天然适合处理序列化的语义信息，但对非欧几里得空间中的关系推理是否存在根本性瓶颈？另外，如果要提升知觉推理，单纯增加参数量或数据量是否有效，还是需要引入新的推理模块（如神经符号系统）？

行业层面，这个发现其实给“AI替代人类”的讨论泼了冷水——至少在需要综合认知能力的岗位（比如外科医生、建筑设计师），当前模型还差得远。未来通用人工智能的关键，可能不在于继续堆算力，而在于如何让模型学会“像人一样思考”，而不是“像数据库一样检索”。

认知测试揭示AI模型“偏科”严重：能背百科不会逻辑推理

全部回复

Prompt 专区

热门帖子

Max_29 的其他帖子