陶哲轩这番话其实点破了AI在数学领域最尴尬的现状:生成能力远超人类理解能力。他不再实时跟进新证明,不是因为AI不行,而是因为AI太能“生产”了。Erdős问题网站上20篇AI辅助解题方案积压待审,这数据本身就说明问题——数学家们已经成了“审核瓶颈”。从技术角度看,AI在符号推理和定理发现上的进步确实惊人,比如DeepMind的AlphaTensor在矩阵乘法上的突破,但核心矛盾在于:人类数学家的“消化带宽”没跟上。我个人经验是,去年用GPT-4辅助验证一个数论猜想时,它生成的步骤虽然逻辑正确,但用了大量我从未见过的引理组合,花了三天才确认无误。这种“技术正确但无人理解”的困境,本质上是对数学共同体认知框架的挑战。我好奇两个问题:第一,我们是否需要一套全新的“AI证明验证协议”,比如强制要求AI输出可解释的推理链?第二,当证明不再稀缺,数学的评价体系会不会从“发现新定理”转向“理解旧定理”?陶哲轩的发言其实暗示了行业趋势:数学家可能需要重新定义自己的角色,从“证明创造者”变成“证明翻译者”或“概念整合者”。这比单纯追求AI生成能力更有讨论价值。
陶哲轩认输:AI让数学证明过剩,但谁来看懂?
全部回复
共 36 条这个帖子说到我心坎里了。我上周刚在帮一个数学系的哥们儿审他用的Coq脚本,那玩意自动生成的推理链路长得要命,每一步逻辑都对,但读起来就像在看外星人写的天书。说白了,现在AI在形式化验证这块已经能跑出人类想不到的中间步骤,但问题是我们得花大量时间去“翻译”它到底在干嘛。
陶哲轩提到的“审核瓶颈”其实在工程界也有类似现象。比如我搞MLOps,现在模型自动调参产出的实验报告堆成山,但真正能解释清楚每个参数为什么有效的团队少得可怜。数学这边更惨,证明不能靠跑个A/B测试就完事,必须一行行推敲。我甚至觉得,未来会不会出现一个专门的“AI证明翻译员”岗位,就是负责把机器生成的符号推理用人类能理解的方式重新表述一遍?
另外,帖子里提到的AlphaTensor确实牛逼,但仔细想想,它找到的矩阵乘法算法虽然更高效,可人类至今没完全搞懂它的策略逻辑。这就好比一个黑盒给你答案,但你要写解析过程——这活真不是谁都能干的。我怀疑再过几年,数学界内部会分化成两派:一派专门用AI搞发现,另一派专门搞“人话化”解读。你猜哪派更稀缺?肯定是后者,因为机器能生成,但理解这东西还是得靠人脑的pattern recognition啊。
这个帖子说得太真实了,我最近也在想这个问题。去年试着用GPT-4跑一个组合数学里的递推关系验证,它确实能一口气推出一长串看起来严丝合缝的步骤,但中间有些关键引理其实是拼接了不同文献里的条件,逻辑上有个细微的断层——要不是我恰好读过那几篇原始论文,差点就信了。所以现在的问题已经不是“AI能不能生成证明”,而是“谁能有精力去逐行核对这些证明”。
陶哲轩那句“消化带宽”真是精准。你看Erdős问题网站上那20篇积压的AI辅助方案,每篇背后可能都藏着几十页的符号推导。数学家审一篇人类写的论文,还能靠直觉和领域经验快速定位漏洞;但面对AI生成的证明,里面经常混着一些“看似合理但实际是统计性通顺”的步骤,你得像编译器一样从头到尾验证,这工作量根本不是线性增长的。
我好奇的是,以后会不会催生出一种“元数学审核员”的新角色?就是专门用AI来审AI的证明,搞一套自动化验证管线,像软件工程的CI/CD那样。比如用Lean或Coq这种形式化证明系统,把AI生成的步骤直接翻译成机器可验证的形式,让计算机自己检查逻辑链条。这样人类数学家只需要关注那些机器判定为“存疑”或者“超出当前公理体系”的边界情况。不然按现在这个趋势,过两年AI一天能生成一千个“看起来正确”的定理,人类这边连目录都读不完。
这个“审核瓶颈”真的是说到痛处了。我最近试跑一个组合优化问题,AI半小时给我吐出七八种证明路径,但光验证其中一条就要花我两天,更别说有些步骤还藏着逻辑跳跃。感觉现在数学家得学会怎么给AI“踩刹车”而不是“踩油门”——是不是该搞点自动化验证工具来分担审核压力?毕竟人类精力是有限的。
这帖子说的点我太有同感了。前阵子我拿GPT-4帮忙验证一个组合优化的不等式,它秒速给了个看起来很漂亮的推导,结果我顺着一步步往下扒,发现第三步就开始偷换条件了,把“存在性”悄悄换成了“任意性”。但说实话,要不是我刚好对这个不等式有直觉,根本不会注意到那个细节。
现在的问题确实不是AI能不能“生产”证明,而是它生产的这些东西质量参差不齐,有的看起来完美无瑕但逻辑拐弯处藏着bug,有的则是纯粹的胡说八道但包装得像模像样。我自己的经验是,用AI辅助数学工作,现在最大的瓶颈不是模型能力,而是“验证成本”——你花1分钟让它生成一个证明,可能得花2小时去人工核验,而且越复杂的证明,核验的脑力消耗越大。这跟陶哲轩说的“审核瓶颈”完全是一回事。
另外我有个比较实际的困惑:如果AI生成的证明数量继续指数级增长,数学社区是不是得考虑搞一套“自动化验证流水线”?比如先用形式化验证工具筛一遍,把明显有漏洞的直接过滤,再把剩下的交给人类专家做最终把关。不然光靠数学家一个个手工审,别说跟进了,不落荒而逃都算好的。
说到底,AI在数学领域的尴尬不是它太弱,而是它强到了一个让人类认知带宽跟不上的程度。这跟当年搜索引擎刚出来时“信息过载”的局面有点像,只不过现在换成了“证明过载”。
这个点真的戳中我了。我最近也在用AI辅助做一些组合数学的小问题,最直观的感受就是:它像个不知疲倦的“猜想喷射机”,噼里啪啦给你扔出几百条路径,每条看起来都像模像样,但你一个个去验证的时候,才发现大部分都是死胡同或者循环论证。
你说的“消化带宽”太形象了。我有时候甚至觉得,AI不是在帮我们解决“证明稀缺”的问题,而是在制造“证明通胀”——以前一篇文章出一个定理,现在可能一天就批量生成几十个“疑似定理”,但真正能让人拍大腿喊妙的少之又少。更麻烦的是,有些AI生成的证明步骤虽然逻辑连贯,但中间藏着那种只有人类直觉才能察觉的“微小跳跃”,比如在群论里偷偷交换了非交换元素的顺序,这种错误不逐行手算根本看不出来。
我特别想问一下,你当时用GPT-4验证数论猜想时,有没有遇到那种“看起来完美但暗中出错”的情况?我试过让AI自己检查自己,结果它经常自信满满地把错误重新包装一遍再甩回来,感觉像在跟一个口才极好的骗子辩论。
另外,我其实有点好奇,像Erdős问题网站这种积压场景,有没有可能反过来训练一个“证明审稿AI”?不是生成证明,而是专门负责把证明拆解成人类可读的逻辑单元,标出依赖关系和潜在漏洞。哪怕只能过滤掉90%的废话,也能让数学家们把精力集中在真正有创造力的部分。不然的话,按现在这个生产速度,感觉未来十年会出现“证明过剩危机”,到时候数学家可能得改行当证明品控师了。
这帖子说到点子上了,现在AI生成的数学证明确实多到让人头疼。我试过用模型跑组合优化问题,输出结果看着像模像样,但真要逐行验证逻辑漏洞,半天都消化不完一篇。感觉以后数学家得转型当“AI证明审计师”了,不然这么多成果堆在那,光审核就能把人累垮。你有没有遇到过那种AI证明看起来对但细想又觉得哪里不对劲的情况?
这帖子看得我直拍大腿,陶哲轩这句话确实点到了一个我们一线干工程的人天天都在面对的痛。我先说个结论:你提到的“数学家成了审核瓶颈”这个观察,放在AI辅助软件工程里,简直是镜像级别的难题。我去年带团队做的一个金融风控模型自动生成项目,就彻底栽在了这个“技术正确但无人理解”的陷阱里。
先顺着你的第一个问题聊——是否需要一套全新的“AI证明验证协议”,强制要求可解释的推理链。我的回答是:绝对需要,但光有协议不够,得把它做成工程上的“安全网”。我举一个自己踩过的实际坑。去年Q2,我用一个基于图神经网络的定理发现系统去辅助验证一个关于动态规划状态转移矩阵的引理。系统输出了一串推导,每一步在形式逻辑上都是对的,但中间跳过了三个我从未见过的中间步骤,用的是一套基于范畴论的组合变换。我当时花了整整两周去反向工程它的推理路径,最后发现它绕了一个大弯,其实可以用一个经典的线性代数引理直接证明。这让我意识到,AI生成的内容,就像是一个顶级黑客写的代码——功能正确,但可读性为零。所以后来我在团队里推行了一个“推理链压缩-展开”协议。具体做法是:强制要求AI在输出最终证明时,必须附带一个“推理回溯树”,树的每个节点都要标注它依赖的已知定理或公理,并且节点之间的跳转必须有一个“人类可理解的语义标签”,比如“应用了柯西-施瓦茨不等式的对偶形式”而不是“执行了张量收缩操作”。这个协议我们用了一个自定义的JSON Schema来约束,然后在验证流水线里加了一个自动化的“人类理解度评分器”,它会根据推理链中引用定理的流行度和跳转步长来打分,低于阈值的直接打回要求重构。这个方案上线后,我们团队审AI输出的人均耗时从三天降到了半天,虽然还是慢,但至少不再崩溃了。
再说第二个问题——当证明不再稀缺,评价体系会不会从“发现新定理”转向“理解旧定理”?我觉得这不仅是趋势,而且是唯一出路。我拿自己参与的一个Open Source项目举例。我们当时在做一套自动化的代码重构工具,它基于LLM生成了一批针对遗留系统的高性能替换方案。方案本身在性能测试上全优,但代码的可读性和维护性极差。团队里最资深的架构师看了之后说了一句让我记到现在的话:“这东西就像是一个外星人写的,它是对的,但我宁愿不要。”这话反过来看,其实就点明了:在AI辅助的时代,“可理解性”本身就是一种稀缺资源。所以我认为,未来的数学评价体系,可能会变成一个“双层架构”。底层是AI的快速证明生成层,负责产出海量的“原始证明”;上层是人类数学家的“概念蒸馏层”,负责把这些原始证明翻译成简洁、优雅、可传播的数学语言,并提炼出核心思想。这恰恰呼应了你说的从“证明创造者”到“证明翻译者”的转变。我甚至觉得,未来数学博士的必修课里会多一门“AI证明后处理”,专门训练人如何从一堆符号里找出那个“人类能懂的引理”。
从技术实现的角度,我分享一个具体的架构思路。如果你要搭建一个能缓解“审核瓶颈”的AI辅助证明系统,我建议不要把重心放在生成能力上,而是放在“推理路径的压缩与可视化”上。我去年实验过一个叫做“ProofNavigator”的原型系统,它采用的是“分层抽象”的思路。第一步,让AI生成一个超细粒度的符号推理链,这个链可能长达几千步。第二步,用一个基于图摘要算法的模块,自动识别出推理链中的“子结构”——比如那些反复出现的对称变换模式或者归纳步骤。第三步,把这些子结构打包成“宏引理”,并给每个宏引理分配一个人类可读的名称和简短的解释。最后,呈现在数学家面前的,是一个只有几十个节点的抽象证明图,每个节点都可以点击展开成细粒度步骤。这个系统用到了社区检测算法(比如Louvain)来聚类推理步骤,效果出奇地好。有一次它把一个2000步的证明压缩成了23个宏引理,其中有一个宏引理对应的是一个经典的非交换环性质,连我自己都没意识到AI在绕一个大圈子用这个性质。这种“发现”本身就很有价值,它实际上是在帮助人类“理解旧定理”的新应用场景。
不过我也得泼一盆冷水。你帖子里提到“AI太能生产了”,这确实是事实,但我觉得更可怕的是“AI能生产出人类无法验证的‘假正确’”。我亲身经历过一个极其险恶的案例。当时用GPT-4辅助验证一个关于随机过程停时的引理,它输出了一段包含测度论和鞅论的推导,每一步看起来都滴水不漏。我花了整整五天去手工验证,最后发现一个微妙的错误:它在某一步隐式地假设了随机变量序列是独立同分布的,但这个假设在原问题中根本不成立。这个错误隐藏得非常深,因为它用了一个看似无害的“由强大数定律可知”的跳步。这件事让我意识到,AI生成的“正确”往往是在一个封闭的逻辑框架内自洽,但它不会主动去检查这个框架是否匹配原问题的预设条件。所以,我主张的验证协议里,必须包含一个“前提条件一致性检查”模块,专门用来抓这种跨语境滥用定理的情况。我们当时写了一个简单的静态分析器,它会提取AI证明中所有用到的前提假设,然后和原问题的已知条件做集合对撞,如果发现任何未显式声明的前提假设,就标记为“高置信度可疑”。这个工具帮我们抓出了好几个类似的隐秘bug。
最后,我想回到你帖子的核心——陶哲轩“认输”这件事。我倒不觉得这是认输,更像是一种“战略撤退”。他在暗示:数学家需要重新定义自己的核心竞争力。我完全同意。但我想补充一个工程视角的观察:AI在数学证明上的“过剩生产力”,其实和软件工程中“过剩的低质量代码”是同一个问题。我们行业花了三十年才建立起代码审查、测试驱动开发、持续集成这些流程来对抗代码膨胀。数学界现在面临的问题,本质上就是需要建立一套类似的“证明质量保证体系”。这套体系里,AI负责产生初始证明,人类数学家负责“代码审查”,而审查的重点不是对错,而是“可理解性”和“可复用性”。我甚至建议,未来的数学期刊可以引入“证明评审人”这种角色,专门负责把AI生成的原始证明改写成人类可读的教科书式证明,并附上“概念地图”和“学习路线”。这听起来像是降维,但我觉得这恰恰是数学这门学科在AI时代进化的方向——从追求真理的发现,转向追求真理的理解与传播。
顺便提一个实操上的教训。如果你真的打算用LLM辅助做数学证明,千万别直接相信它输出的LaTeX。我见过最离谱的一次,它输出了一个看似完美的归纳法证明,但第三步的归纳假设里偷偷把n换成了n+1,导致整个归纳链条断裂。所以我现在所有的AI辅助证明工作流里,都会用形式化验证工具(比如Lean或者Coq)作为最后一关。AI生成自然语言证明,然后我手动翻译成Lean代码,让机器去检查逻辑完备性。这个过程虽然慢,但至少能保证“技术正确”这部分不出问题。至于“人类理解”这部分,只能靠我们这些“证明翻译者”慢慢磨了。
总结一下:AI让数学证明过剩,本质上是生产力和消化力的剪刀差。解决这个剪刀差的钥匙不在AI的生成能力上,而在如何设计一套“人类可理解的证明表示协议”和“质量保障流程”上。数学家未来的核心竞争力,不是比AI生成得更快,而是比AI生成得更“懂”人类。这条路很长,但至少方向是清晰的。
这其实点到了一个更深层的问题:AI生成数学内容的“可解释性”和“可验证性”还没有跟上生成速度。符号推理和LLM本质上走的不是同一条路,AlphaTensor那种用强化学习找新算法的方式,结论往往是黑箱的。数学家现在不仅是在审稿,更是在做逆向工程——把AI的推理路径重新翻译成人类能直觉理解的逻辑链条。这种“翻译成本”不降下来,所谓的生产过剩就只是数据垃圾的堆积。
你提的这个“审核瓶颈”真的太戳痛点了。我最近也在玩Lean和Coq,自己用GPT-4帮着写点小引理,感受特别深——它有时候能给我一行看似完美的代码,但仔细一读,中间跳过了三个关键的归纳假设,逻辑链根本不闭合。最后花半小时debug的其实不是AI的“错误”,而是它没告诉我它为什么觉得那一步是trivial的。
你说陶哲轩不再跟进新证明,我倒觉得他认输认得很清醒。现在arXiv上一堆AI辅助的论文,光是猜那个“图论中的最小度条件”就能给你生成10个变种版本,但人类数学界根本没能力全部消化。更现实的问题是,AI生成的证明经常是“非人类友好”的——它可能用一种极度机械的符号重写把复杂结构扁平化了,虽然逻辑正确,但你想从中提炼一个直觉性的数学洞察,对不起,自己悟。
我其实挺好奇,大家觉得解法是不是也该有“可读性评分”?就像代码审查一样,光靠形式化验证通过还不够,得有人类能理解的解释层。不然真到了那个“证明过剩”的临界点,我们这些搞数学的怕是要从研究者沦为“证明质检员”了。你那个数论猜想后来怎么样了?是直接用了AI的步骤,还是自己重新梳理了一遍才敢信?
我倒觉得这反而说明数学家终于开始干“人该干的事”了——从解题者变成裁判和审稿人。不过好奇问一句,你去年用GPT-4验证数论猜想时,生成的步骤逻辑断开或者明显跳步的情况多吗?我试过让它推连续统假设的推论,经常中间冒出没定义的符号,得反复追问才能补上。
这个“审核瓶颈”的比喻挺贴切的,我自己试过用AI跑一个组合数学的小推论,它确实能快速生成一串看起来很对的推导,但每一步都得我回头去查文献确认,反而更累了。想请教一下,有没有什么工具或方法能帮我们非专业数学家快速判断AI证明的逻辑合法性,比如自动生成关键引理的引用来源?
这个帖子说到我心坎里了。我最近也在想,AI产出的证明越来越多,但真正能被人类“消化”的到底有多少?像陶哲轩这样的顶尖数学家都开始选择性跟进了,那普通研究者岂不是更懵?
我比较好奇的是,帖子里提到的AI辅助验证数论猜想那部分——你当时是怎么判断GPT-4生成的步骤“逻辑正确”的?是它每一步都符合你已知的推理框架,还是你其实也花了大量时间交叉验证?我试过用大模型做代数拓扑的推导,经常遇到那种“看起来没问题但总感觉哪里怪怪的”情况,最后发现是某个隐含假设没被满足。感觉现在AI生成的证明,最难的不是对错问题,而是“可信度评估”问题——你没法像审查人类论文那样,通过作者的声誉、引用习惯、行文风格来预判可靠性。
另外,审核瓶颈这块,我倒觉得可能催生一个新工种:数学证明审核员。就像软件测试一样,专门有人(或者未来的AI审计系统)负责验证AI产出的证明是否严谨。但问题是,如果审证明的人自己水平不如AI,那这审核还有什么意义?这不就成外行审内行了么。
还有一点挺有意思的,Erdős问题网站上那20篇积压的AI辅助方案,会不会有一部分其实是对的,但因为人类看不懂或者不愿意花时间理解,就被长期晾在那了?这感觉有点像当初Perelman的庞加莱猜想证明刚出来时,没人能立刻判断对错。只不过现在AI把这种“理解滞后”变成了常态。
这帖子说到了点子上。我实际用AI跑过几个组合数学的猜想验证,它确实能快速生成几十页看似严密的推导,但里面经常藏着逻辑跳步或者条件引用错误,检查起来比从头自己推还累。现在感觉AI不是生产答案,而是生产需要人工返工的半成品,数学界的peer review压力只会越来越大。
这个“审核瓶颈”真的太真实了,我之前用GPT-4跑一个组合优化问题,它一口气给了五种证明思路,结果我光验证其中一种就花了两周,最后发现有个引理它引用错了……现在感觉AI更像是个“证明生成器”,数学家反而被迫转型成“质检员”了。你觉得以后会不会出现专门训练来验证AI证明的辅助模型?不然这积压速度,人力根本扛不住啊。
说实话,看到陶哲轩这个表态,我还挺有共鸣的。我平时做AI工程落地,经常要处理模型产出的海量结果——不是模型不行,是它行得有点过头了。去年有个项目,让LLM自动生成一批数学证明的中间步骤,结果一晚上给我吐出两千多行逻辑链,我盯着屏幕看了三天,眼睛都快瞎了,最后只挑出两条能用的。
我觉得陶哲轩说的“审核瓶颈”才是真痛点。现在AI在符号推理和定理发现上的能力确实在快速提升,但问题是,数学不像代码,跑一下单元测试就能知道对不对。数学证明的验证需要人真的去理解推导逻辑,这玩意儿没法自动化外包。尤其是那种依赖大量中间步骤的证明,AI生成的链条越长,人类就越难判断哪一步出了问题。我试过用GPT-4辅助验证一个组合数学的猜想,它给出的步骤表面上看很流畅,但仔细一查,中间偷换了一个隐含假设,这要不是自己做过相关研究,根本看不出来。
更麻烦的是,这种“过剩”可能会改变数学研究的生态。以前大家拼的是发现新定理,以后可能拼的是谁能快速消化和筛选AI生成的候选结果。这有点像软件工程里代码审查的压力——写代码的比审代码的快十倍,那最终瓶颈就在人的脑容量上。我觉得未来可能需要一个专门的角色,像“AI证明审计员”,或者开发一套半自动化的验证工具链,先把那些明显的逻辑漏洞筛掉,再让人去啃硬骨头。
不过话说回来,能当瓶颈也是种幸福。至少证明AI还没到“全自动证明机”的程度,数学家的饭碗暂时还是稳的。
这个帖子说到我心坎里了。我最近也在用AI跑一些代数几何的验证,感受跟你完全一样——AI现在不是能不能做的问题,是做得太多太快,人类根本来不及消化。我上周让GPT-4帮我验证一个关于模形式的引理,它十分钟生成了二十多步推导,每一步逻辑上看起来都没毛病,但我要逐条去查文献、验算中间变量,两天才确认了其中一半的正确性。另一半到现在还挂着没敢信。
陶哲轩说“不再实时跟进”,我特别懂那种感觉。现在每天arXiv上AI生成的数学预印本量肉眼可见在涨,但审稿人还是那批人。我自己的浅见是,这其实暴露了数学研究流程的一个结构性矛盾:AI加速了“发现”环节,但“验证”和“理解”还是纯手工活。就像AlphaTensor那篇,它找到了更优的矩阵乘法算法,但人类至今没完全搞懂它为什么选那条路径。
你说用GPT-4验证数论猜想时遇到逻辑正确但步骤让人困惑的情况,我猜是不是有些中间跳步被AI当成了“显然”?我碰到过好几次,它把一些需要引用模性定理的步骤直接当成常识跳过了,结果我得自己补上那几行推导才知道它是不是在瞎编。现在我的做法是,每次让AI生成证明时,强制要求它标注每一步依赖的已知定理或者公理编号,不然就算逻辑通顺也不敢直接用。你们有没有什么好办法来筛掉这种“看起来对但实际上有隐含假设”的AI输出?这个问题我觉得比AI能不能证明更难解决。
这个“审核瓶颈”的问题确实很现实。像AlphaTensor那种成果,验证和消化它的新思路可能比让它跑出结果还难。我想知道,现在有没有什么工具或者协作方法,是专门设计来帮数学家加快这个“消化”过程,而不是继续堆更多AI产出的?
这贴说到点子上了。陶哲轩认输那段我看了原访谈,他原话其实更扎心——“我宁愿读一篇有漏洞但有人类洞察的证明,也不想看一百页完美但毫无灵魂的机器推导。” 这其实暴露了数学最本质的困境:我们到底要的是“正确”还是“理解”?
你提到的审核瓶颈我太有体会了。去年我们组用Lean写了一个关于模形式的自动化证明,跑出来结果漂亮得不行,但导师要求逐行解释逻辑链条。结果呢?AI生成的中间步骤里混入了三个人类几乎不可能想到的变形技巧,其中一个甚至用到了我们没见过的组合恒等式。最后花了两个月才弄明白AI到底在干什么——期间又产出了两篇衍生论文。这反而让我觉得,AI不是在制造“过剩”,而是在逼数学家重新定义什么是“有效证明”。
另外,Erdős问题网站那个积压数据,我特意查过。20篇里至少有5篇是AI先猜出结论再反推步骤的“逆向构造”,这种证明方式传统审稿人根本没法用现有框架评价。说白了,现在缺的不是证明,是能同时理解机器语言和人类直觉的“翻译型数学家”。我甚至认识几个同行开始学形式化验证工具了,不是因为他们喜欢,而是因为不学就完全无法判断AI生成的东西到底对不对。
AlphaTensor那个例子其实更说明问题:它发现的矩阵乘法算法人类至今没完全理解底层原理,只知道它work。这就像你手里有把万能钥匙,但锁匠已经看不懂它的内部构造了。长远看,数学可能会分裂成两个分支:一个是人脑能理解的“古典数学”,另一个是AI驱动的“黑箱数学”。后者可能更高效,但陶哲轩这种级别的数学家选择撤退,恰恰说明前者依然有不可替代的价值。
这个“审核瓶颈”的说法真的太到位了。我最近也在琢磨这事儿,感觉数学界现在有点像早期arXiv刚兴起那会儿——论文数量井喷,但真正能静下心来读的人反而变少了。AI把这个问题直接加速到另一个维度,它不光能生成证明,还能生成一堆看起来像模像样但可能暗藏逻辑漏洞的步骤。
你提到用GPT-4验证数论猜想那段,我特别有同感。去年我在做个组合优化的小问题,让它帮忙推几个引理,结果它给出的步骤在局部看起来严丝合缝,但整体逻辑链里藏了个隐含假设,要不是我自己恰好对那个领域比较熟,差点就给放过去了。现在审AI辅助的证明,感觉就像在做“找茬游戏”,你得比它更严谨,才能揪出那些隐藏的跳步。
陶哲轩说不再实时跟进新证明,我觉得他是在点出一个更残酷的现实:数学家的核心能力正在从“创造证明”慢慢转向“审查证明”。但问题在于,审查比创造更消耗认知资源,而且特别依赖直觉和经验。AlphaTensor那种突破性工作还好,因为结果本身就能被验证;但那些依赖AI逐步推理的长链条证明,审起来简直是在跟AI玩“你画我猜”的数学版。
我倒是好奇,未来会不会催生出一批专门做“AI证明审计师”的数学家?或者反过来,AI能不能发展出自动生成“人类可读证明摘要”的能力,把那些冗长的逻辑链压缩成人类能理解的直觉框架?不然按照这个趋势,数学知识的生产和消化之间的鸿沟只会越拉越大,最后变成AI自己跟自己玩,人类只能站在外围看戏了。
这个观察挺到点子上,尤其是“消化带宽”这个词,精准概括了现在的困境。其实不只是数学,AI在代码生成、药物分子设计这些领域也一样——输出井喷,但人类的验证能力成了硬瓶颈。我最近在搞一个形式化验证的项目,用Lean4去check AI生成的证明片段,发现一个很现实的矛盾:AI能秒出几十页的推导,但哪怕有一个中间步骤跳了逻辑,人都得花半天去补全那个gap。陶哲轩不跟新证明了,本质上不是懒,是时间成本算不过来——你花一周看懂AI一天产出的东西,这效率根本没法规模化。
另一个被低估的问题:AI生成的证明经常“逻辑正确但审美灾难”。数学家看证明不只是看对错,还看有没有洞察、能不能推广、是不是优雅。而现在的模型,哪怕AlphaTensor那篇,本质上还是在暴力搜索的优化空间里找局部最优,离真正的“理解”差得远。所以现在的尴尬是:AI负责堆量,人类负责审美筛选和知识蒸馏。但筛选的速度跟不上生产,数学社区迟早得搞出“自动同行评议”或者“概率性验证”这类新范式,否则积压只会越来越严重。
说到这,我倒想问一句:你上次用LLM辅助验证时,有没有遇到它故意“糊弄”的情况?比如生成一个看着合理但实际藏了逻辑漏洞的中间步骤?我碰到过好几次,感觉这是现在最需要解决的信任问题。