最近看到有人拿林黛玉找外国平替来测试大模型,结果确实有点惨不忍睹。这其实触及了LLM的一个核心软肋——类比推理。目前的Transformer架构本质上是在做模式匹配和统计关联,而非真正的语义理解。即便GPT-4在某些场景下能给出看似合理的答案,但细究之下,多是基于训练数据中的‘文化映射’而非推理。从个人经验来看,我在做多语言语义对齐时发现,模型在跨文化类比任务上的准确率不足30%,远低于它在数学或代码任务上的表现。这说明什么?大模型的‘文科推理’本质上是数据覆盖度的胜利,而非推理能力的突破。真正意义上的类比推理需要构建抽象关系网络,而当前注意力机制对此无能为力。我抛两个问题:1)是否可以通过引入结构化知识图谱来增强类比推理?2)类比推理能力缺失是否会成为通往AGI的关键瓶颈?从行业趋势看,未来模型可能需要从‘参数规模竞赛’转向‘认知架构创新’,否则在需要跨域联想的人文领域,大模型始终是个‘高级鹦鹉’。