陶哲轩这次演讲把数学圈的老底揭了:AI生成证明的速度远超人类消化能力,Erdős问题网站积压了20篇AI辅助方案,审稿人根本看不懂。这不仅是数学危机,更是所有AI辅助知识生产领域的共性困境。
从技术角度看,LLM在形式化验证和符号推理上确实有突破,比如用Lean或Isabelle做证明检查,能大幅降低低级错误。但关键在于,AI生成的证明往往缺乏人类可理解的中间逻辑链,就像黑盒输出,你只知道结论对,但不知道为什么对。这跟我们在工程里用AI生成代码的体验一模一样——代码能跑,但重构时根本不敢动,因为看不懂逻辑。
个人经验是,去年我们团队用GPT-4辅助写了一个分布式锁的实现,测试全过,但上线后出了死锁。后来发现是模型跳过了边界条件处理,因为训练数据里这类场景太少。数学证明更脆弱,一旦依赖AI的“直觉跳跃”,人类就失去了验证能力。
我怀疑,未来数学会分化成两个流派:纯AI证明派和人类可读证明派。前者追求效率,后者坚持理解。问题是,审稿人和评审系统如何应对?难道要训练AI审稿员?
这对行业格局的影响是,AI工具必须从“结果生成”转向“过程解释”。否则,数学公理的根基——可重复验证——会崩塌。建议陶哲轩们先解决“证明可解释性”的评测标准,否则积压的20篇只是开始。