追问快读:
如果你让大模型给林黛玉找一个外国文学里的平替,它能给出令人信服的答案吗?这个脑洞的背后其实是当下人工智能最核心的软肋——“类比推理”能力。
人类可能很容易举一反三,列出一些合适的人物。但在对大模型的众多批判中,人们常说它只是记住了海量训练数据中的模式,并没有进行真正的抽象思考。
本文总结了近两年多项关于大模型类比能力的前沿研究。科学家们发现,无论是做理科的数字矩阵,还是做文科的故事类比,只要给题目换个马甲(比如使用虚构字母表或重写故事表述),大模型的准确率就会断崖式下跌,表现甚至不如7岁的儿童。看似无所不知的AI,距离真正读懂人类复杂的隐喻与类比,依然任重道远。
当下想要找到些“普通人类擅长,而大模型不擅长”的任务,似乎越来越难了。“类比”可能就是这样的任务,这不只是人工智能的“阿克琉斯之踵”,更显露出不同大模型间以及大模型与人类之间的本质差异。
在《表象与本质》一书中,认知科学家侯世达(Douglas Hofstadter)指出:
类比不仅仅是语言或逻辑的工具,更是思维的基本单位。
我们日常语言中充满了类比和隐喻,就如同“充满”一词本身。类比能够激活创造力。例如,爱因斯坦将引力场类比为一个重物被放入蹦床后造成的表面弯曲,这启发他提出了广义相对论。类比还能解释难以理解的现象。就像为人所熟知的类比“意识就像冰山”,通过将意识与冰山联系起来,人们可以直观地推断出意识在水面下的深度和复杂性。
那么,
大语言模型是否也具有类比能力?
在机器学习中,类比体现为“0尝试推理”,即不给大模型可供学习的示例,而是让大模型自行根据题目进行推理。为了验证大模型能否进行类比推理,Webb等人(2023)设计并使用了三种类比推理任务——字符串类比、数字矩阵和故事类比,以此测试GPT3面对不同类型任务的推理能力。通过这套测试,
研究人员认为他们证明了GPT-3具有类比推理能力
[1]。
但是,更进一步的问题是,
这些大模型会不会只是在回忆训练数据,而并非真正的类比呢?
当面对更变化多样的问题时,大模型能否具有稳定的类比能力?
大模型能读懂题目“马甲”下的本质吗?
为了检测模型是否依赖表面特征或捷径,而非真正的抽象推理,圣塔菲研究院的Lewis & Mitchell,基于Webb等人设计的基本转换和泛化类型,设计了更进一步的变体测试[2]。
他们给题目套一些“马甲”,在不改变本质的同时,让题目看起来不同;然后用新的测试对GPT-3(text-davinci-003)以及近期更新的大模型GPT-3.5(gpt-3.5-turbo-0613)、GPT-4(gpt-4-0613)进行类比能力测试,包括字符串、数字矩阵和故事类比实验。这类研究中,最常用到的是侯世达于1985年提出的
“字符串类比”
*。
* 字符串类比:a b c d → a b c e; i j k l → ?
其中,第一部分是"源转换",第二部分是"目标",任务是以类似于源转换的方式转换目标字符串。
2023年,Webb等人提出了六种转换类型(如序列扩展、后继、前驱等)和多种泛化类型(如字母到数字、分组、更长目标等)的组合。他们为每种问题类型生成了大量问题,并将这些问题给到GPT-3(text-davinci-003)以及57名UCLA本科生进行测试。结果发现,
人类参与者的准确率表现出很大的差异,但总体而言,GPT-3在大多数问题类型上的表现甚至优于平均人类表现
[1]。但是,这项研究中所使用的字母表均为标准英文字母表及其固有顺序,测试中大模型表现出来的“类比能力”是否可能依赖表面特征走了“捷径”?为此,Lewis & Mitchell保留了基本转换和泛化类型,又进一步创建了两类变体[2]:
- 虚构字母表:
随机打乱2-20个字母的顺序,创建28种不同的打乱字母表
- 符号字母表:
用非字母符号完全替代字母,创建9种不同的符号字母表
研究人员对真实的拉丁字母表,随机选取1-3对进行替换,然后分别给人类和GPT-3、GPT-3.5、GPT-4进行了测试。
▷
图1. Lewis & Mitchell给受试人类和大模型的类比问题示例. 图源:[2]
结果显示,当字母表的替换次数增加后,不论是GPT3、GPT3.5或到GPT4,其回答准确性都有下降,且都显著低于在线招募的人类受试者[2]。
▷
图2:不同字母表替换次数下,GPT模型和人类被试者的准确性对比. 图源:[2]
Mitchell团队还做过一项尝试,他们让42名儿童(7-9岁)、62名成人以及4种大模型(Anthropic的Claude-3.5、Google的Gemma-2 27B、Open AI的GPT-4o和Meta的Llama-3.1 405B),接受拉丁字母表、希腊字母表和符号列表三种条件的字符串类比任务[3]。
▷
图3:不同类型的字母推理问题. 图源:[3]
结果显示,
大模型面对类比问题时,准确性就会显著下降,表现甚至不如儿童。
就拿GPT-4o和Claude-3.5来说,在拉丁语字母表上,其平均准确性要高于儿童并接近成人;但当题目换成希腊字母,准确性就会显著下降;而到了符号时,其准确性甚至不如孩童。而其他开源模型如Llama-3.1 405B和Gemma-2 27B,其准确性下降更为明显[3]。
▷
图4:不同大模型和人类在三类字符串类比中的表现对比. 图源:[3]
上述结果说明,当实验引入“异构”字母表时,人类甚至儿童仍然能够解决问题,而大模型则会出错。
一个能够真正理解和类比的系统,应该在变化的情况下也能保持高性能——这正是GPT系列大模型不具备的能力。
读者也许会好奇,其他推理大模型能否回答这样的问题。笔者简单尝试了一下,在DeepSeek官方的全尺寸R1及V3模型,以及阿里通义千问的QwQ 32B推理模型中,对于多次替换后的虚构字母表,模型能够正确回答,并给出符合人类思考过程的推理过程的。
但当DeepSeek模型变为蒸馏Qwen或lamma的32B、14B、8B或1.5B尺寸时,笔者有限的几次观察发现,模型都呈现出
过度思考
的特征,即会在思考过程中尝试众多过于复杂的模式,展示数万token的繁杂思考过程,最终仍然给出了错误的回答。笔者还遇到在思考过程中,已经发现正确答案,但又在接下来的思考过程中,大模型将其否决的案例。
笔者认为,基于强化学习的大模型能否进行类比,还需要进一步的定量研究,以考察不同尺寸模型的准确度。例如,对于模型将问题过度复杂化的倾向,可以根据思考过程,
对模型的错误进行进一步的分类,以此或可创建出一个评估一般思维能力的考核指标。
此外,还可以组合字符串类比的6个变种,设计更多的题目,例如在字母表中包含数字、英文字母、汉字及符号,这样的改变或许对人类不会影响准确性,但可能会导致大模型的准确度下降。同时,还需要考察推理模型对于这类问题的思考时所用的token数量,从而
减少计算成本。
大模型能理解推理规则吗?
除了字母表推理,还可以使用数字矩阵类问题(分析数字模式以确定缺失的数字)。数字矩阵测试的设计思路源于经典的瑞文渐进矩阵测试(Raven's Progressive Matrices),这是一种广泛用于测量抽象推理能力的非语言智力测试。
让AI给林黛玉找个外国平替?大模型的文科推理有多离谱?
AITNT
20天前
4
2
本文由 Zyentor(智元界) 原创发布,转载请注明出处。
欢迎在 技术论坛 讨论本文相关内容