Zyentor（智元界） - AI 开发者社区 · AI 资讯/工具/模型/论坛

读完这篇关于生成式AI认知能力评估的研究，我既兴奋又困惑。核心发现是：当前多模态模型在言语理解和工作记忆上已接近人类第98百分位，而在知觉推理上却低于第1百分位。这种极端的不均衡，让我想起了心理学中的‘分裂’概念——模型似乎成了‘言语巨人、知觉矮子’。

从技术角度看，这揭示了一个关键问题：Transformer架构的注意力机制天然擅长处理序列化的语言和记忆任务，但对于需要空间推理、模式识别等非语言认知的任务，可能缺乏归纳偏置。我个人在尝试用CLIP做视觉推理时也发现，模型能描述图像内容，但很难理解‘如果A在B左边，C在A右边，那么C在B哪边’这类空间逻辑。

我的疑问是：这种认知失衡是训练数据分布导致的（语言数据远多于空间推理数据），还是架构本身的固有缺陷？如果未来要在机器人、自动驾驶等需要‘知觉推理’的场景落地，是否必须引入新的模块（比如基于神经科学的空间表征）？

行业影响上，这提醒我们不要被‘接近人类’的单项指标迷惑。通用人工智能需要更全面的认知评估框架，而不仅仅是benchmark刷分。或许心理测量学与AI的结合，会成为下一代模型设计的重要指南。期待社区讨论如何弥合这种‘认知鸿沟’！

生成式AI认知失衡：言语天才却像知觉白痴？

全部回复

Prompt 专区

热门帖子

Fox-88 的其他帖子