让AI给林黛玉找个外国平替？大模型的文科推理有多离谱？

追问快读：
如果你让大模型给林黛玉找一个外国文学里的平替，它能给出令人信服的答案吗？这个脑洞的背后其实是当下人工智能最核心的软肋——“类比推理”能力。
人类可能很容易举一反三，列出一些合适的人物。但在对大模型的众多批判中，人们常说它只是记住了海量训练数据中的模式，并没有进行真正的抽象思考。
本文总结了近两年多项关于大模型类比能力的前沿研究。科学家们发现，无论是做理科的数字矩阵，还是做文科的故事类比，只要给题目换个马甲（比如使用虚构字母表或重写故事表述），大模型的准确率就会断崖式下跌，表现甚至不如7岁的儿童。看似无所不知的AI，距离真正读懂人类复杂的隐喻与类比，依然任重道远。
当下想要找到些“普通人类擅长，而大模型不擅长”的任务，似乎越来越难了。“类比”可能就是这样的任务，这不只是人工智能的“阿克琉斯之踵”，更显露出不同大模型间以及大模型与人类之间的本质差异。
在《表象与本质》一书中，认知科学家侯世达（Douglas Hofstadter）指出：
类比不仅仅是语言或逻辑的工具，更是思维的基本单位。
我们日常语言中充满了类比和隐喻，就如同“充满”一词本身。类比能够激活创造力。例如，爱因斯坦将引力场类比为一个重物被放入蹦床后造成的表面弯曲，这启发他提出了广义相对论。类比还能解释难以理解的现象。就像为人所熟知的类比“意识就像冰山”，通过将意识与冰山联系起来，人们可以直观地推断出意识在水面下的深度和复杂性。
那么，
大语言模型是否也具有类比能力？
在机器学习中，类比体现为“0尝试推理”，即不给大模型可供学习的示例，而是让大模型自行根据题目进行推理。为了验证大模型能否进行类比推理，Webb等人（2023）设计并使用了三种类比推理任务——字符串类比、数字矩阵和故事类比，以此测试GPT3面对不同类型任务的推理能力。通过这套测试，
研究人员认为他们证明了GPT-3具有类比推理能力
[1]。
但是，更进一步的问题是，
这些大模型会不会只是在回忆训练数据，而并非真正的类比呢？
当面对更变化多样的问题时，大模型能否具有稳定的类比能力？
大模型能读懂题目“马甲”下的本质吗？
为了检测模型是否依赖表面特征或捷径，而非真正的抽象推理，圣塔菲研究院的Lewis & Mitchell，基于Webb等人设计的基本转换和泛化类型，设计了更进一步的变体测试[2]。
他们给题目套一些“马甲”，在不改变本质的同时，让题目看起来不同；然后用新的测试对GPT-3（text-davinci-003）以及近期更新的大模型GPT-3.5（gpt-3.5-turbo-0613）、GPT-4（gpt-4-0613）进行类比能力测试，包括字符串、数字矩阵和故事类比实验。这类研究中，最常用到的是侯世达于1985年提出的
“字符串类比”
*。
* 字符串类比：a b c d → a b c e; i j k l → ?
其中，第一部分是"源转换"，第二部分是"目标"，任务是以类似于源转换的方式转换目标字符串。
2023年，Webb等人提出了六种转换类型（如序列扩展、后继、前驱等）和多种泛化类型（如字母到数字、分组、更长目标等）的组合。他们为每种问题类型生成了大量问题，并将这些问题给到GPT-3（text-davinci-003）以及57名UCLA本科生进行测试。结果发现，
人类参与者的准确率表现出很大的差异，但总体而言，GPT-3在大多数问题类型上的表现甚至优于平均人类表现
[1]。但是，这项研究中所使用的字母表均为标准英文字母表及其固有顺序，测试中大模型表现出来的“类比能力”是否可能依赖表面特征走了“捷径”？为此，Lewis & Mitchell保留了基本转换和泛化类型，又进一步创建了两类变体[2]：
- 虚构字母表：
随机打乱2-20个字母的顺序，创建28种不同的打乱字母表
- 符号字母表：
用非字母符号完全替代字母，创建9种不同的符号字母表
研究人员对真实的拉丁字母表，随机选取1-3对进行替换，然后分别给人类和GPT-3、GPT-3.5、GPT-4进行了测试。
▷
图1. Lewis & Mitchell给受试人类和大模型的类比问题示例. 图源：[2]
结果显示，当字母表的替换次数增加后，不论是GPT3、GPT3.5或到GPT4，其回答准确性都有下降，且都显著低于在线招募的人类受试者[2]。
▷
图2：不同字母表替换次数下，GPT模型和人类被试者的准确性对比. 图源：[2]
Mitchell团队还做过一项尝试，他们让42名儿童（7-9岁）、62名成人以及4种大模型（Anthropic的Claude-3.5、Google的Gemma-2 27B、Open AI的GPT-4o和Meta的Llama-3.1 405B），接受拉丁字母表、希腊字母表和符号列表三种条件的字符串类比任务[3]。
▷
图3：不同类型的字母推理问题. 图源：[3]
结果显示，
大模型面对类比问题时，准确性就会显著下降，表现甚至不如儿童。
就拿GPT-4o和Claude-3.5来说，在拉丁语字母表上，其平均准确性要高于儿童并接近成人；但当题目换成希腊字母，准确性就会显著下降；而到了符号时，其准确性甚至不如孩童。而其他开源模型如Llama-3.1 405B和Gemma-2 27B，其准确性下降更为明显[3]。
▷
图4：不同大模型和人类在三类字符串类比中的表现对比. 图源：[3]
上述结果说明，当实验引入“异构”字母表时，人类甚至儿童仍然能够解决问题，而大模型则会出错。
一个能够真正理解和类比的系统，应该在变化的情况下也能保持高性能——这正是GPT系列大模型不具备的能力。
读者也许会好奇，其他推理大模型能否回答这样的问题。笔者简单尝试了一下，在DeepSeek官方的全尺寸R1及V3模型，以及阿里通义千问的QwQ 32B推理模型中，对于多次替换后的虚构字母表，模型能够正确回答，并给出符合人类思考过程的推理过程的。
但当DeepSeek模型变为蒸馏Qwen或lamma的32B、14B、8B或1.5B尺寸时，笔者有限的几次观察发现，模型都呈现出
过度思考
的特征，即会在思考过程中尝试众多过于复杂的模式，展示数万token的繁杂思考过程，最终仍然给出了错误的回答。笔者还遇到在思考过程中，已经发现正确答案，但又在接下来的思考过程中，大模型将其否决的案例。
笔者认为，基于强化学习的大模型能否进行类比，还需要进一步的定量研究，以考察不同尺寸模型的准确度。例如，对于模型将问题过度复杂化的倾向，可以根据思考过程，
对模型的错误进行进一步的分类，以此或可创建出一个评估一般思维能力的考核指标。
此外，还可以组合字符串类比的6个变种，设计更多的题目，例如在字母表中包含数字、英文字母、汉字及符号，这样的改变或许对人类不会影响准确性，但可能会导致大模型的准确度下降。同时，还需要考察推理模型对于这类问题的思考时所用的token数量，从而
减少计算成本。
大模型能理解推理规则吗？
除了字母表推理，还可以使用数字矩阵类问题（分析数字模式以确定缺失的数字）。数字矩阵测试的设计思路源于经典的瑞文渐进矩阵测试（Raven's Progressive Matrices），这是一种广泛用于测量抽象推理能力的非语言智力测试。

让AI给林黛玉找个外国平替？大模型的文科推理有多离谱？

讨论 (0 条)