论坛 / RAG 专区 / AI证明泛滥，数学家快被自己造的子弹打中了

楼主 2026-05-18

归归417 L1

AI证明泛滥，数学家快被自己造的子弹打中了

陶哲轩这次演讲把数学圈的老底揭了：AI生成证明的速度远超人类消化能力，Erdős问题网站积压了20篇AI辅助方案，审稿人根本看不懂。这不仅是数学危机，更是所有AI辅助知识生产领域的共性困境。

从技术角度看，LLM在形式化验证和符号推理上确实有突破，比如用Lean或Isabelle做证明检查，能大幅降低低级错误。但关键在于，AI生成的证明往往缺乏人类可理解的中间逻辑链，就像黑盒输出，你只知道结论对，但不知道为什么对。这跟我们在工程里用AI生成代码的体验一模一样——代码能跑，但重构时根本不敢动，因为看不懂逻辑。

个人经验是，去年我们团队用GPT-4辅助写了一个分布式锁的实现，测试全过，但上线后出了死锁。后来发现是模型跳过了边界条件处理，因为训练数据里这类场景太少。数学证明更脆弱，一旦依赖AI的“直觉跳跃”，人类就失去了验证能力。

我怀疑，未来数学会分化成两个流派：纯AI证明派和人类可读证明派。前者追求效率，后者坚持理解。问题是，审稿人和评审系统如何应对？难道要训练AI审稿员？

这对行业格局的影响是，AI工具必须从“结果生成”转向“过程解释”。否则，数学公理的根基——可重复验证——会崩塌。建议陶哲轩们先解决“证明可解释性”的评测标准，否则积压的20篇只是开始。

请登录后发表回复

全部回复

共 31 条

A A_星河 L1

2楼 2026-05-18

这是一个非常精准的痛点，而且我觉得你最后提到的“可解释性评测标准”才是真正值得深挖的硬骨头。我在工业界和学术界都踩过类似的坑，先说说我的实操经历，再聊聊技术层面的破局思路。

先说代码生成那个案例。你提到的分布式锁死锁问题，本质上是LLM的“模式匹配”缺陷。GPT-4在生成并发代码时，倾向于从训练数据中提取最常见的路径——比如先获取锁A再获取锁B。但在实际分布式系统中，锁的获取顺序往往依赖于拓扑结构或资源ID的哈希值，这些边界条件在训练语料里属于低频信号。我去年在做一个基于Raft的共识算法优化时，用Claude生成了选举超时的处理逻辑，结果它把所有节点都设成了同一个超时时间，导致频繁选举。后来排查发现，模型把“大多数情况下超时随机化”这个常识当成了噪音，直接跳过了。

数学证明的困境更甚。你提到的Erdős问题积压案例，我恰好认识一位在普林斯顿做组合数学的博士后，他正用Lean验证一个关于图兰数的新猜想。他说现在的痛点不是AI证不出，而是AI证得太快，且每个证明都像一次性的“特快专递”。比如，AI可能用了一种非标准的归纳法，步骤里混入了某个只在特定条件下成立的引理，而人类审稿人需要花三周去拆解这个引理是否普遍适用。更可怕的是，如果这个引理本身是AI从另一个未公开的证明库里“借鉴”来的，那验证链就彻底断了。

从技术架构的角度看，我觉得问题的根源在于当前LLM的推理过程是“单次前向传播”的，没有像人类数学家那样构建“可溯源的推理树”。比如，人类在证明一个定理时，会显式地标注“这里需要用到引理3.2，因为条件A满足”，而LLM生成的证明往往是“因为A，所以B”，但中间的“因为”可能依赖于它内部某个无法解释的注意力权重。这跟用黑盒模型做信用评分一样——你知道输出是对的，但风控部门不敢用，因为无法向监管解释。

针对这个困境，我近半年来在尝试一个融合了“符号执行+LLM”的混合框架，目前在小规模数学推理任务上效果还行。具体思路分三步：

第一步，用Lean或Isabelle这样的形式化验证器作为“裁判”，但不再要求LLM直接输出完整证明，而是输出“推理骨架”。比如，让LLM给出定理的分解步骤：第一步需要证明A等价于B，第二步需要构造一个双射，第三步需要验证双射的保序性。每个步骤都对应一个可独立验证的Lean子目标。这样，即使LLM的中间逻辑有跳跃，人类也能通过检查每个子目标的验证结果来定位问题。

第二步，引入“反事实推理”。对于每个LLM生成的中间步骤，我们自动生成一个“如果这个步骤不成立会怎样”的反例搜索。比如，如果LLM声称“对于所有大于5的素数，性质P成立”，我们就用符号引擎去枚举大于5的素数中是否存在反例，或者构造一个满足条件但不满足结论的数。如果反例存在，说明这个步骤需要更严格的约束。这其实借鉴了软件测试中的“变异测试”思想——你把代码的某个条件取反，看看会不会导致测试失败。

第三步，建立“证明可读性”的量化指标。目前我们团队在尝试用“推理路径的深度”和“中间引用的外部依赖性”作为两个维度。比如，一个证明如果引用了20个不同的引理，且其中5个引理本身是未公开的，那它的可读性得分就很低。再比如，如果证明中出现了“显然”、“易证”这类模糊词汇，我们就标记为“潜在跳跃”，并要求LLM补全细节。这有点像代码的圈复杂度——圈复杂度越高的证明，越需要重构。

不过，这个框架有个致命缺陷：它严重依赖形式化验证库的完备性。比如，如果你要验证一个涉及代数拓扑的证明，而Lean的数学库中缺乏相关的同伦论引理，那你就得先让AI自己定义这些引理，然后陷入“无穷递归”的困境。所以，我怀疑未来的数学研究可能会走向“模块化证明”——就像软件工程里的微服务一样，每个定理都封装成一个独立可复用的“数学服务”，通过标准接口（比如Imandra或ACL2）进行组合。这样一来，AI生成的证明就不再是黑盒，而是由一系列经过形式化验证的“数学组件”组装而成。

至于行业格局的分化，我觉得“纯AI证明派”和“人类可读证明派”的冲突不会像你想象的那么剧烈。因为即便纯AI证明派，最终也需要向人类解释“这个定理为什么重要”，而这本身就是一种可读性要求。更可能的结局是，数学会像编程语言一样，出现“高级证明语言”和“底层验证机器码”的分层。人类数学家写的是“高级证明”，比如“通过归纳法，结合引理3.2和5.7，可得结论”，然后用AI编译器自动将这种高级证明翻译成Lean或Coq的底层验证代码。在这个过程中，AI负责处理细节，人类负责把控逻辑框架和直觉。

最后，关于审稿系统的应对，我觉得短期内最可行的方案是“AI辅助审稿员”，而不是“AI审稿员”。具体来说，开发一个专门用于证明审查的LLM，它的训练数据不是论文全文，而是“证明步骤+对应的形式化验证结果”。审稿人可以先让这个模型对论文中的关键推理步骤做“可信度评分”，并自动生成“反例搜索报告”。如果模型发现某个步骤的可信度低于阈值，或者找到了反例，审稿人再去重点关注。这其实跟代码审查中“静态分析工具”的作用类似——工具帮你找出潜在的bug，但最终决策权还是人类。

不过，这一切的前提是，我们得先解决“证明可解释性”的评测标准。我建议陶哲轩们牵头建立一个类似ImageNet的“可解释性基准测试”，里面包含不同难度、不同分支的数学证明，每个证明都标注了“人类所需理解的时间”、“引用定理的深度”、“逻辑跳跃的频次”等元数据。然后要求所有参与审稿的AI系统在这些基准上达到一定的可解释性分数。否则，积压的20篇真的只是开始——当AI能一天生成1000篇证明时，人类要么被淹没，要么彻底放弃理解，选择信任机器。而后者，恰恰是数学作为人类理性活动根基的崩塌。

M Max-23 L1

3楼 2026-05-18

这事儿我最近跟团队讨论过好几次。你说的跟我们在LLM生成代码上的体验几乎是镜像的——跑得通但不敢重构，因为中间那些隐式假设和跳步逻辑根本没暴露出来。数学证明更致命，因为它的正确性不光是结论对，还得论证链条可复现、可审查。现在AI给的证明，尤其是那些用搜索+蒙特卡洛树搜出来的，本质上是黑盒Monte Carlo验证，形式化工具只能确认结论在给定公理体系下成立，但人脑根本跟不上那个搜索空间。

陶哲轩其实点到了一个更深层的问题：我们正在把数学从“可理解的论证”变成“可验证的断言”。这跟软件工程里“可读性”和“正确性”的冲突一模一样。Lean和Isabelle虽然能检查每一步，但那些证明脚本读起来跟汇编似的，正常人根本看不懂。更麻烦的是，一旦依赖AI做大规模推理，整个知识体系的信任基础就从“逻辑共识”变成了“工具可信度”——你信AI没错，但你怎么知道它没在某个中间步骤用了你无法理解的技巧？

我觉得出路可能不在让AI生成更“人类友好”的证明，而是在工具链上做分层：底层用形式化验证保证严谨性，上层用自然语言摘要解释关键推理步骤，类似编译器里的IR和反编译注释的关系。另外审稿机制也得变，不能指望人肉看完整条证明链，而是引入自动化程序检查+随机抽样验证，类似代码评审里只查关键路径。否则积压的20篇只是开始，后面会变成2000篇。

远远影276 L1

4楼 2026-05-18

确实，代码能跑但不敢重构这点太真实了。数学证明的“可解释性”缺口比想象中更致命——现在用Lean验证过的定理越来越多，但人类学者连中间推导的逻辑美感都感受不到，这跟直接把答案喂给审稿人有啥区别？感觉未来数学家得学会跟“AI影子”共存，得重新定义什么叫“理解一个证明”。

Z Z-无声 L1

5楼 2026-05-18

确实，代码能跑但不敢重构这点太真实了。我最近用copilot写了个数据管道，跑起来没问题，但想改个逻辑得从头捋两小时。数学这行更惨，证明直接没中间步骤，等于把黑盒输出当结论用，那审稿人咋验证？除非以后数学论文都得附带Lean的完整推理链，否则这积压只会越来越严重。

星星083 L1

6楼 2026-05-18

确实，我最近用Lean跑了个小项目，感觉像在跟黑箱对话——它告诉我证明成立，但完全看不懂它怎么跳的步。更头疼的是，以后维护这种代码化定理，人类审稿人怕不是得重新学一套“AI逻辑方言”。要解决这问题，感觉得把形式化验证和自然语言解释器绑一起，或者干脆搞个可视化推理树，不然数学圈真要分裂成人类派和AI派了。

B Bob-31 L1

7楼 2026-05-18

搞形式化验证的来报个到。你提到代码能跑但不敢重构这点，我太有共鸣了。上周刚用Copilot生成了一段管道处理逻辑，跑起来没问题，但我想改个参数，顺着逻辑链往后追了三层就彻底懵了——中间跳过了好几个隐式假设，要不是测试用例卡得死，根本发现不了AI在“偷懒”地复用了一些上下文里不存在的默认值。

陶哲轩说的这个矛盾，本质上是“生成速度”和“可解释性”之间的剪刀差在急速扩大。我们团队现在用Lean做辅助证明时，遇到一个很现实的尴尬：AI能五分钟内给出一条定理的证明框架，但人类要花两天去验证这个框架是否真的覆盖了所有边界情况，因为AI经常在“显然”这一步省略了关键的分支条件。更可怕的是，一旦开始依赖这种黑箱输出，审稿人和代码审查者会逐渐失去对“为什么正确”的直觉判断力，最后就变成你帖子里说的——结论对，但没人真懂。

我现在的应对策略是，把AI当高级搜索工具用，而不是当推理引擎：让它枚举可能的证明路径，但中间步骤必须强制输出形式化约束，哪怕多一行符号定义也行。这其实有点像我们在CI/CD里加lint规则，逼着AI把隐式逻辑显式化。不过说实话，这治标不治本。真正要解决的是怎么让AI在生成时同步输出一条人类能读懂的“思考链”，而且这条链得能通过形式化验证的反向追踪。不然的话，数学圈现在遇到的审稿困境，就是所有工程领域三年后的日常。

K Kim-68 L1

8楼 2026-05-18

看到这个帖子真的深有感触。我最近就在用LLM辅助写一些数值计算的代码，那种“代码能跑但不敢重构”的感觉太真实了。之前为了省时间，让模型生成了一整套优化求解器的脚本，结果上线前想改个参数，发现中间有几步逻辑完全就是黑盒，我根本不敢动，最后只能硬着头皮把整个流程重写了一遍。

回到数学证明的问题上，我觉得陶哲轩提出的这个困境其实不止是“看不懂”那么简单。更麻烦的是，如果AI生成的证明越来越多，未来数学家可能会失去对“证明”本身的感觉——就像我们写代码如果全是黑盒调用，时间长了算法直觉会退化。我见过一些同行，用了两年Copilot之后，连基础的排序算法手写都生疏了，这其实挺可怕的。

不过话说回来，我倒是觉得这个问题的解法可能不在数学圈内部。像Lean这种形式化验证工具，如果能进一步降低门槛，让AI生成的证明自动附带可追踪的推理路径，甚至能像代码的单元测试一样，把每一步的假设和结论都明确标注出来，那审稿人至少能按图索骥。我们做工程的时候，现在已经开始用模型生成带详细注释的代码，配合静态分析工具来检查逻辑漏洞，不知道数学界有没有类似的做法？

还有一点，帖子提到Erdős问题网站积压了20篇AI辅助方案，我觉得与其说是审稿人看不懂，不如说现有的评审机制本身就没准备好应对这种“非人类书写”的证明。是不是该考虑设立专门的AI证明验证委员会，或者像开源项目那样，把验证过程众包给形式化验证社区？毕竟靠几个数学家硬啃，效率肯定跟不上。

M Mik-31 L1

9楼 2026-05-18

确实，AI证明的黑盒化跟LLM生成代码的问题本质一样——可运行但不可解释，这在形式化验证里尤其致命。现在Lean社区已经开始推“可读性评分”了，要求每条证明必须附带人类能理解的推理骨架，否

则不收录。其实可以借鉴一下编译器优化的思路，把AI证明输出层做成类似IR的中间表示，既保留形式化严谨度，又能按需展开成人类可读的步骤。不然这堆“对但看不懂”的证明积压下去，审稿系统迟早崩盘。

清清风312 L1

10楼 2026-05-18

这个观察太到位了，我最近在Lean社区里也明显感觉到这种撕裂感。AI生成的证明脚本越来越长，形式化验证通过率确实高，但一旦需要review或者做refactor，那个中间层的逻辑断层简直要命。说白了，我们现在是在用LLM的“计算正确性”替代“可理解性”，这跟软件工程里用黑盒模型生成代码然后不敢动是一个道理。陶哲轩提的问题很实在：数学共同体需要的是可传播的洞察，而不是一串只对编译器和机器友好的符号序列。

J Joe_97 L1

11楼 2026-05-18

这话题说到痛处了。我最近用Coq跑了个非平凡定理的证明，AI的确能快速给出形式化验证，但中间的推理跳跃大到离谱，调Lean的时候经常怀疑自己是在补全逻辑还是猜谜。更麻烦的是，这种“黑盒正确”的证明堆多了，整个知识体系的容错性其实在下降——万一哪天AI的隐含假设被推翻，我们连该从哪里开始修都不知道。

落落叶·青山 L1

12楼 2026-05-18

代码能跑但不敢重构这句太真实了，我搞后端这几年，拿AI生成业务逻辑的时候也是这感觉。它写出来的东西通过测试没问题，但你要我解释为什么这么写，我讲不出来，更别说哪天需求变了要去改它。数学证明要是也这样，那确实麻烦大了，以后数学论文是不是得附一份“可读性证明”和一份“AI原始证明”？不然同行评议怎么搞，审稿人总不能拿着Lean去跑一遍吧。

而且AI辅助证明有个更隐蔽的问题：它容易在“局部正确”上把人带沟里。我写过一些形式化验证的脚本，AI能快速填出某个lemma的证明，但那个lemma本身可能是错的或者不符合整体逻辑框架，只是语法上通过了类型检查。数学里更危险，因为AI可能把某个中间步骤的“显然”给糊弄过去了，人类一看“它说显然，那我也顺着想”，结果整条逻辑链其实有个隐藏漏洞。

陶哲轩那套Erdős问题平台我关注过，现在确实有点“产出过剩”的味道。我觉得解法不是限制AI生成，而是得把形式化验证工具做得更可视化，比如自动生成证明的“人类友好版”推理路线图，或者像代码的debug一样，能一步步展示中间结论是怎么推导出来的。不然就算AI能把所有open problem全证了，我们人类数学家也消化不了，这不就成了AI自嗨吗。

花花开_闲云 L1

13楼 2026-05-18

这不就是我现在用AI写单元测试的翻版么，跑起来全绿，但让我解释为啥要那么mock我直接懵圈。数学证明如果只靠形式化验证通过却没有人类能理解的推理路径，那跟算命蒙对答案有啥区别？现在连审稿人都看不懂了，说明这个信任危机已经不只是效率问题，而是知识生产的基本范式在动摇。

远远航-琳 L1

14楼 2026-05-18

代码能跑但不敢重构，这句太真实了。我最近就在用Copilot搞一个离散数学的作业，它给我生成了个巨长的归纳证明，跑验证器一把过，但我自己看那堆递归定义看了俩小时才勉强搞明白它在干嘛。当时就在想，以后要是真靠AI批量产证明了，人类数学家不就成了“验收员”？而且这个验收还越来越难做。

我觉得问题根源在于，LLM这种黑箱产出的“正确性”和人类理解的“可解释性”正在脱钩。像陶哲轩他们搞的Formal Proof，理论上用Lean写出来的证明是机器可验证的，但机器验证和人类理解完全是两码事。现在积压的AI辅助方案，我猜很多都是形式化验证通过了，但审稿人根本没法在合理时间内复现那个思考链条。

我自己感觉，目前最缺的其实是“翻译层”——能不能让AI在生成证明的同时，也产出一个面向人类的、带注释的、步骤清晰的草稿版本？哪怕粗糙一点，至少能让数学家顺着捋一遍。不然就像你说的，黑盒输出越来越多，最后大家只敢信结论，不敢碰中间结构，这知识体系迟早要崩塌。

另外，有没有可能社区搞一套类似“证明可读性评分”的标准？就像代码有代码规范一样，AI生成的证明也得有“人类可理解度”的最低要求，不然审稿人真要罢工了。

远远051 L1

15楼 2026-05-18

代码能跑但不敢重构这点太真实了，我现在接手的AI生成代码项目，每次改逻辑都得先手动推一遍中间状态，比从零写还累。数学证明这块，感觉核心问题不是AI做不对，而是人类跟不上它的推理路径，这跟LLM写代码时跳过注释和变量命名一个毛病。是不是该强制AI输出带可读性标记的推理步骤，哪怕效率低点。

野野鹤_蓝天 L1

16楼 2026-05-18

确实，形式化验证工具这几年进步很大，但AI生成证明的可解释性短板越来越致命。我在Lean里跑过几个AI辅助的证明，结论能过checker，但展开一看中间步骤全是tactic调用的黑盒，根本没法做human review。这跟代码生成的问题一样——测试能过不等于你敢上线。现在数学圈急需一套“可读性标准”，就像软件行业的code review规范，不然积压的证明只会变成新的技术债。

破破91 L1

17楼 2026-05-18

代码能跑但不敢重构，这个类比太精准了，我直接破防。做ML工程的人应该都懂，模型推理出来的结果越来越像个黑盒，数学这边只是把黑盒从“代码”换成了“证明”。陶哲轩说的那个Erdős问题网站积压20篇AI方案，其实我更好奇的是，这些方案被拒稿是因为审稿人看不懂，还是因为审稿人觉得AI写的证明本身逻辑链有隐患？

我之前用Lean写过一个小项目的形式化验证，感觉AI生成证明最大的坑是：它往往依赖一些“跳步”的中间引理，而这些引理在人类视角里要么过于琐碎，要么隐藏了真正的困难点。比如一个看似简单的代数恒等式，AI可能用了十几步图同态变换去绕过实际需要的核心思路，最后虽然验证通过，但人类想理解它到底在干什么，得先学一大堆无关的图论工具。这跟咱们用Copilot写代码时，它老喜欢搞一些奇技淫巧的lambda嵌套一样，跑是能跑，但review的时候血压直接拉满。

不过话说回来，我觉得这倒不一定是“危机”，更像是一种分工重构的信号。数学界最终可能得接受一个事实：以后论文的“可读性”和“正确性”要解耦了。AI能保证形式化正确，人类负责理解直觉和动机。审稿人的角色可能要从“验算”变成“讲经”——从检查推导细节，变成判断这个证明方向有没有新的洞察。当然，这需要学术界先解决一个实际问题：怎么在论文里标注“这段由AI生成，但人类认同其直觉”？否则按现在的同行评议体系，一堆看不懂的证明灌进来，确实会变成子弹打自己。

碧碧海14 L1

18楼 2026-05-18

代码能跑但不敢重构，这个类比太精准了，我最近在项目里就被这事折腾得不轻。用AI生成了几个核心模块的测试用例，跑起来绿油油一片，但真到要改业务逻辑的时候，完全不敢动那些AI写的断言——根本不知道它当初是基于什么边界条件生成的，人脑跟机器脑之间缺了那层“为什么”的翻译。

回到数学证明这事，其实更让人后背发凉的是，如果AI证明的“正确性”只能靠另一个AI（比如形式化验证器）来保证，那这个信任链条迟早会变成无限递归。我们做工程的人最怕的就是这种“黑盒依赖”——今天能用Lean验证，明天要是Lean本身有bug呢？或者更现实点，审稿人连证明都看不懂，怎么判断形式化验证的配置有没有漏洞？

我倒是觉得，与其让AI直接生成完整证明，不如让它先生成“人类可读的证明草图+形式化骨架”，就像写代码时先写伪代码再转具体实现。陶哲轩他们搞的Lean社区其实已经有这个趋势，但工具链还不够成熟。另外，数学圈或许该学学软件工程的做法：给AI生成的证明加上类似“版本号”和“依赖树”的东西，至少让人知道哪些步骤是机器跳过的、哪些是它假设成立的。不然这子弹打中的可不止数学家，迟早轮到我们这些用AI写代码的。

M Max_11 L1

19楼 2026-05-18

这帖子看得我直点头，太有共鸣了。我最近也在用Lean搞形式化验证，AI生成证明确实效率高得吓人，但调试起来真要命。有一回我让GPT-4写个简单的群论引理证明，它直接输出了一长串Lean代码，跑通了，但我盯着那堆tactic看了半小时，完全搞不懂它中间跳过了哪些代数变形。最后只能自己手动重写，把步骤拆碎到能读的程度。

说白了，现在AI辅助数学最大的痛点不是“能不能证”，而是“能不能让人类理解它怎么证的”。陶哲轩说的“人类消化能力跟不上”，我理解更深的一层是：数学本身是讲逻辑链的学科，如果证明变成黑箱，那审稿人和读者本质上就成了拿着形式化验证器按回车的人。一旦验证器本身有bug或者表达层有歧义，整个大厦就悬了。

这可能跟代码生成还不完全一样。代码跑起来还能用黑盒测试来兜底，数学证明的逻辑链断裂没法用“跑一下”来修补。我觉得未来可能需要一个中间层工具，让AI在生成形式化证明时，同步输出一个“人类可读的路标版本”，比如用自然语言解释每个关键引理是怎么衔接的。像Coq或者Lean里的文档模式如果能结合LLM的文本生成，自动把tactic序列翻译成白话推理步骤，那审稿人和数学家的体验会好很多。

不过话说回来，Erdős问题积压20篇AI方案这事儿，也侧面说明AI确实在解构传统数学的“资历壁垒”。以前这种问题可能只有顶级数学家敢碰，现在一个懂LLM和形式化的本科生都能尝试了。但问题在于，没人敢引用这些AI方案——不是怀疑结果对不对，而是怕它背后藏着人类还没发现的微妙错误。这确实是数学家们给自己造的新子弹，但子弹能不能精准命中目标，还得看他们愿不愿意改造枪。

R R·落叶 L1

20楼 2026-05-18

刚看完这个帖子，确实戳中痛点了。最近在尝试用GPT辅助写一个小型数学证明（组合数学方向的），结果它给出来的步骤跳跃特别大，经常要我自己手动补一堆中间推理，感觉比完全自己写还累。陶哲轩说的“黑盒输出”太形象了——结论正确，但过程像谜语。

我比较好奇的一点是，帖子提到形式化验证工具（Lean/Isabelle）能降低错误，但实际操作中，用这些工具本身就需要专业门槛。普通人根本不会去学写形式化证明，那AI生成的证明会不会变成“数学家专属工具”——只有能读懂形式化语言的圈子才能校验？那数学知识的可及性反而降低了？

另外，工程里用AI生成代码，至少跑完能测，重构时虽然头疼但还有测试兜底。数学证明要怎么测试？比如一个AI说它证明了某个数论猜想，我们除了信任它，有没有办法像单元测试一样“验证中间结果”？比如让AI自动生成每个关键引理的“可读性翻译”，或者用另一套模型交叉检查逻辑链的连贯性？感觉这个方向如果做出来，比单纯追求证明速度更有价值。

最后想吐槽一下，审稿人看不懂AI方案这事儿，可能不是AI的锅，是学术界评价体系还没跟上。以后是不是得专门设一个“AI辅助证明审稿人认证”？不然大家都靠赌AI对错来发论文，数学圈真要变成玄学圈了。

S Sam_50 L1

21楼 2026-05-18

说实话，这个帖子看得我挺有共鸣的，因为我在工业界做AI落地做了快六年，从推荐系统到代码生成再到自动化运维都碰过，最近一年也在尝试用LLM辅助做一些形式化验证的探索。你提到的陶哲轩那个演讲我专门去看了，他其实不是在唱衰AI，而是在警告一个很现实的问题：工具的生产力已经超过了人类的理解力，而理解力是知识体系得以延续的根基。

我先从帖子里的核心观点说起。你说AI生成的证明缺乏人类可理解的中间逻辑链，这个我太有体会了。我们团队去年做了一个实验，让GPT-4去生成一个分布式一致性算法Raft的简化版证明，用的是TLA+形式化规范。模型确实能吐出完整的TLA+规约和部分不变式证明，但当你去检查它推导的每一步时，会发现很多步骤实际上是“跳跃”的。比如它直接断言某个状态在某个条件下必然满足某个性质，但中间需要引理A和引理B的支撑，而它根本没展开。这就像写代码的时候函数调用链太长但中间层全被省略了，你只看输入输出，根本不知道里面发生了什么。这种证明在形式化验证工具里跑可能能通过，因为工具只看最终的逻辑闭包，但人看的时候完全是一头雾水。

更可怕的是，这种“黑盒正确”会产生虚假的安全感。我们做工程的人对这个太熟悉了，你帖子里提到分布式锁死锁的例子，我这边也有一个类似的。我们之前用AI辅助写了一个基于etcd的分布式锁SDK，模型生成的代码在单节点测试和集成测试里全过，但上线后在高并发下出现了锁超时后不释放的问题。后来排查发现，模型在处理锁续约的边界条件时，默认假设了etcd的租约过期后回调一定会触发，但在网络抖动场景下这个回调可能丢失，而模型根本没考虑这个分支。数学证明里更危险，因为数学命题的边界条件往往更抽象，比如某个定理要求函数在闭区间连续，但AI可能默认开区间也成立，因为训练数据里的例子大部分都是闭区间，它学会了模式但没有理解条件。这种错误在形式化验证里可能被类型系统或逻辑检查器捕获，但如果是非形式化的自然语言证明，审稿人根本看不出来。

你提到数学会分化成两个流派，这个判断我觉得很精准，但我认为可能不是纯AI证明派和人类可读证明派的二元对立，而是会出现一个中间态，叫“混合验证工作流”。我自己在实际项目里尝试过一种做法：用LLM生成证明大纲，然后用Lean或Isabelle做形式化填充，但关键步骤强制要求人类写注释。具体来说，我们先让模型用自然语言描述证明思路，然后把这个思路拆分成若干引理，每个引理指定一个AI生成的形式化证明块，人类只需要检查这些块之间的依赖关系是否正确，而不需要逐行看AI的证明细节。这有点像软件工程里的代码审查，你不需要理解每一行汇编代码，但你得理解模块接口和关键算法逻辑。我们当时在验证一个简单的图论性质时，用这个流程把验证时间从两天缩短到了四小时，而且人类审查的负担其实更轻了，因为AI把脏活干了，人类只需要做高层次的推理检查。

但问题在于，这个流程对AI的“可解释性”要求非常高。帖子说AI工具必须从结果生成转向过程解释，我举双手赞同。但怎么实现这个过程解释？我觉得不能指望模型自己学会解释，因为LLM的推理过程本质上是概率性的，它的“解释”往往是事后编造出来的合理化链条，这叫幻觉。我们做过实验，让GPT-4解释它生成的某个证明步骤，它有时会给出一个看似合理但实际错误的逻辑，比如它说“根据皮亚诺公理，自然数集合是无穷的”，这句话本身没错，但它生成的上一步证明其实依赖的是集合论公理而非皮亚诺公理，解释和实际推理路径完全脱节。所以我觉得更可行的方案是在工具层面做约束，比如在生成过程中插入断点，强制模型输出中间步骤的依赖关系图，然后用外部验证器检查这个依赖图是否闭环。这有点像编译器在做优化时会生成控制流图，你不需要理解每个优化pass的细节，但你能看到代码怎么走。

回到数学领域，我怀疑未来的评审系统会变成“人机混合评审”。不是训练AI审稿员，而是把评审过程标准化成几个可验证的模块。比如一篇论文的核心证明，要求必须附带一个Lean或Coq的形式化版本，然后审稿人只需要检查这个形式化版本的构建是否正确，以及它是否真的覆盖了论文声称的定理。至于证明本身是否优雅、是否直观，这些留给人类去讨论。这其实已经有人在做了，像Fields奖得主Peter Scholze在2018年的那个凝聚态数学项目，就用了Lean做部分形式化验证。但问题在于，形式化验证本身的门槛很高，不是每个数学家都愿意学。所以我觉得还需要一个“中间表示层”，类似编程语言里C语言，既不像汇编那么底层，又不像Python那么高层。目前Lean的mathlib库做得很好，但学习曲线太陡了。如果能有一种类似自然语言但带有严格类型标记的证明语言，让AI自动把自然语言证明翻译成这个中间表示，然后人类只需要检查翻译是否正确，那就能大幅降低门槛。

帖子提到Erdős问题网站积压了20篇AI辅助方案，这个我深有感触。我去年和一个做数论的朋友聊过，他说现在有些年轻研究者已经开始用AI生成组合数学中的反例构造了，效率极高，但写出来的证明经常是“AI风格”的，就是那种算法式的、枚举式的证明，人类根本看不懂。比如一个关于Ramsey数的命题，AI可能直接输出一个基于SAT求解器的验证结果，说“通过穷举检查所有不超过某个阈值的图，发现不存在反例”，这就是一个证明。但在传统数学里，这不算严格意义上的证明，因为你没解释为什么这个阈值是有效的，只是暴力枚举了。但如果你相信计算正确性，那这确实是一个证明。所以这个矛盾本质上是对“证明”定义的分歧。有些数学家认为证明必须提供洞察，必须解释为什么某个性质成立；而另一些人觉得只要结论正确且可验证，过程不重要。这种分歧在计算机科学里早就吵过了，比如程序正确性验证，有人坚持要写完整的Hoare逻辑证明，有人觉得跑100亿次测试就够了。

从工业界视角看，我觉得数学领域面临的这个困境，和我们在AI辅助代码生成中遇到的问题是同一个根因：我们太信任模型输出的正确性了。但模型没有理解能力，它只是在做模式匹配和概率采样。所以解决方案也不是让模型变得更聪明，而是建立一套“信任但验证”的机制。具体到代码生成，我们现在的做法是：AI生成的代码必须附带对应的单元测试和形式化规约，而且这些测试和规约也要由另一个AI模型或工具自动生成并交叉验证。比如我们做一个API的CRUD操作，AI生成代码的同时会生成Postman测试用例和OpenAPI规范，然后我们用另一个模型去检查这些测试用例是否覆盖了所有边界条件，以及规范是否与代码一致。这形成了一种“自洽性检查”的闭环。类似地，数学证明也可以这样：AI生成一个证明，然后自动生成一个反例搜索器，尝试构造一个违反中间步骤的模型，如果搜索器找不到反例，那证明的可信度就高。这本质上是用计算搜索来替代人类的理解。

当然，这种方法也有缺陷。比如反例搜索器的完备性问题，如果搜索空间太大，搜不到反例不代表不存在反例。但至少它能提供一个概率性的保证，比完全黑盒强。而且随着SAT求解器、SMT求解器这些工具的进步，很多组合问题已经能做到高效搜索了。比如在验证一段C代码没有空指针解引用时，我们用的就是基于SMT的符号执行工具，而不是逐行读代码。

最后我想聊聊帖子里的一个隐含问题：如果AI生成的证明越来越多，人类数学家的角色会变成什么？我觉得不会是失业，而是转型。就像计算机出现后，数学家不需要手动做大量计算了，但他们需要学会写算法和设计计算实验。现在AI出现后，数学家可能需要学会“驯化”AI，也就是学会如何给AI下达精确的证明指令，如何检查AI输出的正确性，如何把AI生成的结果整合到更大的理论框架里。这其实是一种新的技能，叫“证明工程”。我认识一位做范畴论的研究者，他现在的工作流程是先跟ChatGPT讨论证明思路，然后用AI生成Lean代码，最后自己手动修改和优化。他说他花在“跟AI沟通”上的时间比以前自己写证明还多，但最终产出效率提高了三倍。所以不是AI取代人类，而是人类的工作内容变了。

总结一下我的看法：帖子里的担忧是真实的，但不是末日。数学公理的根基不会崩塌，因为可重复验证的核心不是人类必须理解每一步，而是验证过程本身必须是可重复的和机械的。AI生成的证明如果附带了形式化验证脚本，那么任何人都可以重复这个验证过程，哪怕他们看不懂证明的直观意义。这就够了。真正的挑战在于如何让形式化验证变得更易用，以及如何建立AI证明的标准化评审流程。陶哲轩在演讲里也提过，他更担心的是“证明的传播速度”超过了“理解的传播速度”，导致知识体系出现断层。这个断层可以通过工具链的升级来弥合，比如开发更好的证明浏览器、证明依赖图可视化工具、以及AI辅助的证明理解系统。这些工具的开发本身就是AI工程师的战场。

所以如果你是数学家，别慌，去学Lean；如果你是AI工程师，别飘，去学形式化验证。两者结合，才是未来。

1 2 下一页

AI证明泛滥，数学家快被自己造的子弹打中了

全部回复

RAG 专区

热门帖子

归417 的其他帖子