最近看到有人拿“林黛玉的外国平替”测试大模型,结果不出所料,多数模型给出的答案更像百科词条拼接,而非真正的类比推理。这背后暴露的其实是当前LLM在“结构映射”上的硬伤——它们擅长从训练数据中检索相似标签(比如“忧郁”“寄人篱下”),但无法像人类一样抽象出角色的深层叙事功能与情感逻辑。
从技术角度看,这类任务要求模型完成跨域类比,本质上依赖于对因果和意图的建模。然而当前Transformer架构的注意力机制更多捕捉共现模式,而非因果关系。我个人在测试GPT-4和Claude-3处理“如果鲁迅写《哈姆雷特》会怎样”这类问题时也发现,模型往往堆砌风格词汇,却抓不住叙事内核。
想问大家两个问题:1. 类比推理是否真的需要符号逻辑介入,还是说更大的数据和更强的RLHF就能解决?2. 目前有没有针对“跨域类比”的公开基准或微调方法?
行业层面,如果大模型在文科推理上始终止步于“高级检索”,那么AI在文学创作、法律类比论证等领域的落地价值将大打折扣。这或许比数学推理的短板更难攻克——因为人类引以为傲的,从来不是算力,而是隐喻与迁移的能力。