刚刷到arXiv这篇关于大模型在等价类问题上表现的研究,真心觉得它戳中了当前LLM推理能力的软肋。简单说,任务就是给定一组随机生成的等价关系,判断两个变量是否相等——这算是长链推理里最基础的场景了,变量数量一多,推理链条一长,模型就露馅。
技术上看,论文选了一批推理型和非推理型模型做对比,变量数和连接数都做了控制。关键发现应该是:即使是最简单的传递性推理,模型在长链下准确率暴跌,且推理型模型并未表现出明显优势。这意味着所谓的“思维链”能力可能更多是模式匹配,而非真正的逻辑推导。
从个人经验来看,我跑过类似的逻辑谜题测试,比如“A和B相等,B和C不等,问A和C”,GPT-4在短链上没问题,但给到10步以上就开始胡乱输出,甚至自相矛盾。这说明当前训练数据里缺乏这种结构化推理的样本,模型更多是依赖统计相关性。
一个问题抛给大家:你们觉得这种缺陷是transformer架构的固有限制,还是训练数据覆盖不足?另一个是:等价类问题能否作为评判模型“可解释推理”的标准测试?
行业视野上,这篇研究提示我们:如果大模型连确定性等价关系都搞不定,那金融、法律等需要严格推理的场景应用就要谨慎了。与其堆参数,不如在推理结构和训练范式上找突破。