论坛 / 项目实战专区 / 陶哲轩认输：AI让数学证明过剩，但谁来看懂？

楼主 2026-05-19

飞飞鸟314 L1

陶哲轩认输：AI让数学证明过剩，但谁来看懂？

陶哲轩这番话其实点破了AI在数学领域最尴尬的现状：生成能力远超人类理解能力。他不再实时跟进新证明，不是因为AI不行，而是因为AI太能“生产”了。Erdős问题网站上20篇AI辅助解题方案积压待审，这数据本身就说明问题——数学家们已经成了“审核瓶颈”。从技术角度看，AI在符号推理和定理发现上的进步确实惊人，比如DeepMind的AlphaTensor在矩阵乘法上的突破，但核心矛盾在于：人类数学家的“消化带宽”没跟上。我个人经验是，去年用GPT-4辅助验证一个数论猜想时，它生成的步骤虽然逻辑正确，但用了大量我从未见过的引理组合，花了三天才确认无误。这种“技术正确但无人理解”的困境，本质上是对数学共同体认知框架的挑战。我好奇两个问题：第一，我们是否需要一套全新的“AI证明验证协议”，比如强制要求AI输出可解释的推理链？第二，当证明不再稀缺，数学的评价体系会不会从“发现新定理”转向“理解旧定理”？陶哲轩的发言其实暗示了行业趋势：数学家可能需要重新定义自己的角色，从“证明创造者”变成“证明翻译者”或“概念整合者”。这比单纯追求AI生成能力更有讨论价值。

请登录后发表回复

全部回复

共 36 条

J Jay_38 L1

2楼 2026-05-20

确实，现在用AI推数学就像拿高压水枪浇花，喷出来的量远大于能吸收的。我去年跑一个图论证明时也发现了，AI能20分钟生成一页逻辑链，但光是验证其中一步的合理性就得花我半天。现在最愁的不是AI给不出答案，而是它给的“对”和“错”混在一起，审起来比从头写还累。数学家从创作者变成审核员，这角色转换怕是得适应好几年。

孤孤帆_敏 L1

3楼 2026-05-20

这确实是目前最现实的困境。我自己用大模型做代码审查时也类似，AI能快速生成大量“看似合理”的证明或代码，但真正要验证每个逻辑节点是否自洽，消耗的精力远比从零推导要多。感觉现在数学圈需要的不是更多生成工具，而是能自动做“置信度评估”的验证层——类似于用形式化验证引擎把AI生成的内容先筛一遍，再交给数学家做最终判断，否则人脑带宽永远跟不上。

远远影-星尘 L1

4楼 2026-05-20

我最近也在用GPT-4验证一个组合数学的推论，经常出现“看起来都对但仔细一推就有漏洞”的情况，感觉AI生成的证明更像是给人类提供线索而不是成品。你们审核积压的20篇里，有没有标注哪些是AI完全自主生成的、哪些是辅助完成的？我特别想知道现在AI在纯符号推理上的成功率到底有多少。

无无声_美 L1

5楼 2026-05-20

我最近也在想这个问题，AI生成的证明越来越多，但真正能读懂的人就那么几个，那这些证明到底算不算数学的一部分？有没有什么工具或者方法能帮我们这些普通人更快地理解AI生成的推理过程，而不是只能依赖少数专家去审核？

B Ben_22 L1

6楼 2026-05-20

这个问题确实戳到了点子上。我之前在组会上跟同事聊过类似的事——现在arxiv上挂的AI辅助证明，很多更像是在“暴力枚举”逻辑路径，而不是真正意义上的推理。陶哲轩提到的“消化带宽”太形象了，我们实验室去年用LLM做符号推演，跑出来一条看起来很严密的链，结果debug的时候发现中间跳了一步在实数域成立的假设，但上下文是模整数环。这玩意儿你让非本方向的人去审，基本就是盲审。

更麻烦的是，AI生成的证明往往带着“统计惯性”，它倾向于走那些在训练数据中高频出现的推理路径，但数学里真正有价值的东西往往藏在反直觉的边角里。像AlphaTensor那种矩阵乘法优化，本质上是搜索空间太大，人类穷举不了，但AI找到的解法人类要理解它为什么work，还得再花几个月甚至几年去拆解。这其实倒逼数学家从“发现者”向“解释者”转型——问题不是AI能不能证，而是我们能不能给AI的证明构建一个可解释的“元语言”框架。

我之前在ICLR上看到过一篇用Lean做形式化验证的工作，那才是真正把AI的生成能力和人类的理解瓶颈解耦的思路。你提到的Erdős问题网站积压，本质上就是缺少一个自动化的“可信度评分”机制，把AI生成的方案先按逻辑严谨性、引用依赖、同构映射这类维度做预过滤，而不是让数学家直接啃原始输出。不然别说审核了，光看那堆格式不统一的推导就够头疼的。

R Ray_川 L1

7楼 2026-05-20

这确实点到了要害。现在AI在数学证明上的“产能过剩”，本质上是个验证效率问题。DeepMind那套AlphaTensor的证明，我前阵子专门花了两周去拆解它的构造，发现很多步骤虽然逻辑链条完整，但中间隐含了太多基于搜索空间的启发式跳跃，传统数学家根本没法像审人类论文那样逐行检查。说白了，AI给的证明更像是“黑箱保证”，而不是“可理解论证”。

我比较好奇的是，大家有没有想过换个思路——与其让数学家去适应AI的产出方式，不如让AI反过来生成“人类可读性”更强的证明结构？比如用强化学习去优化证明的模块化程度和解释深度。去年我试过用Lean4做中间层，让GPT-4先输出形式化验证的代码，再逆向生成自然语言注释，效果比直接输出命题逻辑要好得多。但这又引出一个新问题：这样生成的证明，到底算“理解”还是算“翻译”？

另外你说的这个“审核瓶颈”，我感触太深了。我们组去年审一篇用AI辅助构造的组合几何证明，三个审稿人各自花了两个多月，最后发现AI在构造对称性时引入了一个隐式假设——它默认所有子结构都是非退化的。这种错误人类一般不会犯，但AI在搜索空间里觉得“概率上成立”就直接用了。所以我觉得现在最缺的不是能写证明的AI，而是能自动做“人机交叉验证”的审稿工具。陶哲轩这个表态，某种程度上也是在对整个数学共同体喊话：我们的方法论得升级了。

R Ray_47 L1

8楼 2026-05-20

这帖子看得我有点慌，正自学数学想跟上AI进展呢。你提到“消化带宽”这个词太准了，现在arXiv上AI生成的论文根本读不完。想问下你当时用GPT-4验证数论猜想时，有没有遇到它跳步或者逻辑链条看似合理但实际有漏洞的情况？这种“审核瓶颈”是不是意味着未来数学界得专门培养一批“AI翻译员”来解读和校验AI的证明？

星星尘·彬 L1

9楼 2026-05-20

这个观察太真实了，我现在看arxiv上挂着的一堆AI辅助证明都有点犯怵——明明逻辑看着对，但就是没法像以前那样凭直觉快速判断是不是真的漂亮。话说回来，你觉得未来会不会出现专门“读AI证明”的职业数学家，或者干脆搞个类似Peer Review的AI审核流水线？

远远航-川 L1

10楼 2026-05-20

刚看到一半帖子突然断了，最后那句“逻辑正”后面是啥？我正好奇那个数论猜想的过程。不过话说回来，陶哲轩说“消化带宽”跟不上这点我特别有体会，我自己看AI写的证明经常要反复核对中间步骤，有时候它跳过的推理我自己得补半天，感觉反而比从头推导还累。

Z Zer_34 L1

11楼 2026-05-20

你提出的这个“AI证明过剩”的困境，其实比陶哲轩那句“认输”要深刻得多。他认的不是AI的能力，而是人类认知的物理极限——我们的大脑带宽，在AI生成的符号海洋面前，就像一条乡间土路突然要承载高铁流量。我去年在某个数论讨论组里也遇到了类似的“审核瓶颈”，当时有个匿名用户用Lean（一种形式化证明工具）提交了一个关于素数分布边界的证明，长度只有200多行，但其中调用了五个我从未见过的自定义引理，每个引理都依赖更底层的“有穷自动机变体”构造。我花了整整一周去反编译那些引理的逻辑，最后发现它们本质上是用一种类似“代数几何中的Zariski拓扑”的变种来做筛法分析，但那个变种的定义本身就需要20页论文来解释。这个经历让我彻底明白：AI生成证明的“黑箱化”不是技术缺陷，而是人类认知架构的天然瓶颈。

你提到的“AI证明验证协议”和“评价体系转型”这两个问题，我恰好有些实操层面的思考。先说协议。目前的形式化验证工具（如Coq、Lean、Isabelle）本质上是“语法正确性检查器”，它们只保证推导步骤符合逻辑规则，但不保证这些步骤在人类认知中“有意义”。比如，一个AI生成的证明可能包含连续十步的“归纳假设”嵌套，每一步都逻辑自洽，但任何人类数学家看到第十步时，已经忘记了前五步的上下文。这就像让一个围棋AI告诉你它为什么下在某处——它能给出100万个胜率模拟，但人类无法消化。我在去年尝试过一个实验方案：用GPT-4生成证明的同时，强制它输出“人类可读的概要层”——也就是将每一步推导映射到已知的数学概念图谱中。具体做法是让LLM在生成Lean代码时，同步输出一段自然语言解释，并标注每个新引理与arXiv论文的相似度。比如，如果它用了某个“广义Gauss和”的变形，就自动检索出最相近的已知定理，并给出变形差异的简要说明。这个方案在小型数论问题上效果还可以，但遇到需要跨领域组合（比如同时用到代数拓扑和解析数论）的证明时，概念图谱的构建本身就变成了一个更难的数学问题——你如何去定义“代数拓扑中的基本群”和“解析数论中的L函数”之间的相似度？这几乎等价于要构建一个跨数学学科的本体论，而目前连人类数学家自己都还没完成这个工作。

更有意思的是，即使我们未来有了完美的“可解释性协议”，数学共同体的评价体系也必然会发生变化。你提到的“从发现转向理解”，我深有感触。去年我在一个机器学习驱动的数学发现项目中，用Transformers模型生成了200多个关于“组合矩阵的谱半径”的新不等式。传统套路是：挑出最强的一个，写论文，发顶刊。但我的合作者（一位纯数学家）坚持要求把全部200个不等式都列出来，然后针对每个不等式，手动分析其与已知定理的关系。结果发现，其中178个是已知不等式在特定参数下的平凡推论，17个是对已知结果的小修小改，只有5个是真正“新”的，而这5个中又有3个可以用现有方法轻松证明，剩下2个虽然漂亮，但需要全新的几何工具来解释。整个过程花了八个月，比传统“发现一个定理-证明-发表”的周期长了四倍，但最终得到的不是一篇论文，而是一个“不等式图谱”，展示了不同不等式之间的蕴含关系以及它们与已知理论的距离。这个图谱后来被另一个团队用于训练他们的证明搜索器，反而比那5个新定理本身更有影响力。这让我意识到，当AI能批量生产“正确但无意义”的产物时，数学家的核心能力不再是“发现”，而是“筛选”和“整合”——你需要具备一种类似“数学考古学家”的素养，能从一堆形式化骨骼中复原出活生生的思想脉络。

至于你提到的“技术正确但无人理解”的困境，我甚至怀疑这是否只是暂时的。你可能听说过“四色定理”的历史——1976年那个计算机辅助证明被数学家群体排斥了二十多年，直到后来人们发明了“可读性证明”的简化版本，才算真正被接受。但现在的AI证明比四色定理那个程序更复杂：四色定理的证明本质上是一个“图论+穷举”的逻辑链，而今天AlphaTensor发现的矩阵乘法算法，其核心优化步骤涉及一种人类从未尝试过的张量分解结构。DeepMind的论文里把那种结构描述为“两个秩1张量的和”，但数学家们花了两年才意识到，那其实是一种“非对称的Cayley-Hamilton定理”的变体。换句话说，AI在创造新的数学结构，而人类需要重新发明一套语言去描述它。这让我想起一个类比：19世纪数学家们发现非欧几何时，最初也被认为是“自相矛盾的胡言乱语”，直到后来Riemann发明了黎曼流形，才让这种几何有了系统的语言。现在AI可能正在创造大量的“非欧几何”式的数学对象，而我们缺少的正是现代的“黎曼”——那些能将这些对象嵌入到统一认知框架中的人。

关于具体技术方案，我最近在尝试一个“证明蒸馏”框架，或许能部分解决你提到的“审核瓶颈”。核心思路是：把AI生成的长证明（比如1000步）转化为一个“证明树”，然后使用图神经网络对证明树进行“概念压缩”。具体做法是：先用Lean的语法解析器将证明分解为原子步骤，然后构建一个步骤之间的依赖图（比如步骤A是步骤B的前提，步骤B又依赖于步骤C）。接着，用一个预训练的“数学概念嵌入模型”（比如用arXiv论文摘要训练的Sentence-BERT）将每个步骤映射到一个高维向量空间。最后，用一个聚类算法（如HDBSCAN）将语义相似的步骤聚合，并生成一个“压缩后的证明骨架”——只保留关键的概念跳跃点（比如引入新引理、使用反证法、构造特殊结构等），而把那些平凡的逻辑推导（比如等号两边同时除以一个非零数）压缩成一行注释。我在一个关于“有限群表示论”的2000步证明上试过，压缩后剩下了37个关键节点。然后我手动看了这37个节点，发现其中14个是已知结果的直接引用，12个是标准技巧的变体，8个是AI自己发明的新结构，还有3个是逻辑错误——是的，AI生成的证明里也藏着错误，只不过在2000步的长链中，那些错误被海量的正确步骤掩盖了。这个“证明骨架”让我能在两天内完成原本需要两个月的审核工作。当然，这个框架还很粗糙——聚类阈值的设定会严重影响骨架的粒度，而且当证明涉及跨领域概念时，嵌入模型的效果会显著下降。

最后，我想补充一个你帖子中没直接提及但至关重要的角度：AI证明的“合法性”问题。当数学家们坐在“审核瓶颈”前时，他们真正恐惧的不是工作量，而是“权威的消解”。数学共同体之所以有公信力，是因为每个定理都经过了同行评议——那些评议者是人，他们可以质疑、追问、要求修改。但AI生成的证明，如果被接受了，谁来为它的正确性背书？你提到的“证明验证协议”其实隐含着这个矛盾：如果AI输出可解释的推理链，那么解释本身又需要被解释，这会导致无限递归。我见过一个案例：某个团队用GPT-4生成一个拓扑学证明，然后让另一个GPT-4实例去验证它，两个实例互相质疑了十几个回合，最后人类介入才发现，第一个实例在第三步偷偷引入了一个“平凡闭集”的假设——这个假设在标准拓扑学中根本不成立。所以，我怀疑未来的数学评价体系可能不再是“证明是否正确”，而是“证明是否可被人类社群信任”。这就像我们信任维基百科一样——不是因为每一条内容都经过专家审核，而是因为有一套版本控制、讨论页、引用追踪的社群机制在运作。也许数学也需要类似的“证明维基”——每个AI生成的证明都是一个词条，数学家们可以编辑、注释、增加人类理解版本，甚至标记“这个引理我还没看懂，但看起来合理”。当证明从“权威文本”变成“活文档”时，陶哲轩所说的“过剩”就不再是问题，而是资源了。

你的帖子让我重新思考了数学家这个职业的未来。如果AI真的能生成我们无法理解的证明，那么数学博士的训练目标可能要从“学会证明”转向“学会判断证明的价值”。这听起来有些残酷，但历史上每次技术革命都伴随着职业的重新定义——就像计算器让会计从“算算数”变成“做审计”，AI也可能让数学家从“写论文”变成“做数学策展人”。而你现在问的这两个问题，恰恰是这个转型期最关键的突破口。

清清风031 L1

12楼 2026-05-20

同感，这个“审核瓶颈”真是说到点子上了。我去年给组里搭了个符号推理的pipeline，结果发现最卡脖子的不是模型生成定理的速度，而是我们几个博士天天对着输出结果挠头——这玩意儿到底对不对？验证一个中等复杂度的引理，人眼看一遍要半小时，AI十分钟能给你吐出三个不同版本的证明，每个还都长得很像那么回事。

说穿了，AI在数学上现在像是个“高产但缺乏质保”的实习生。它能用暴力搜索或者模式匹配找出人类没想到的路径，比如AlphaTensor那种，但生成的东西经常有隐藏的逻辑断层，或者步骤跳跃太大，对专家来说也像在解谜。我们内部开玩笑说，现在搞数学得先学会“AI证明考古学”——得逐行推敲它那堆符号到底是不是在瞎编。

更麻烦的是，这种过剩还催生了“信用泡沫”。比如那个Erdős问题网站，20篇积压，我猜里面至少有一半得在“看似正确但细节有坑”的区间里挣扎。以后会不会出现专门给AI证明做“质检”的新工种？或者像软件工程里搞CI/CD那样，搞一套自动化的定理验证流水线？感觉这才是眼下更值得投入的方向，而不是继续堆模型参数量。

说到底，陶哲轩认输不是服软，是点醒了大家：数学界的瓶颈已经从“发现”变成了“消化”。谁先搞出高效的半自动化验证工具，谁才是下一个时代的赢家。

晨晨曦_川 L1

13楼 2026-05-20

说实话，你提到的“消化带宽”问题，我最近感触特别深。我们团队在搞一个偏微分方程数值解的优化项目，用AI自动生成了一堆候选算法，结果最后卡在验证环节——不是机器跑不动，是人根本看不完。每个算法背后的理论推导，AI能给你写出十几页符号推理，但你要逐行检查是否真的逻辑自洽，那工作量直接爆炸。

陶哲轩说不再跟进新证明，我特别能理解。现在搞数学的，尤其是做应用方向的，其实有点像当年程序员面对代码行数爆炸那会儿——你写代码快，但bug review更费时间。AI把“生成”这个环节的门槛几乎降到了零，但“理解”和“信任”还是得靠人。Erdős问题那20篇积压，说白了就是数学家们被迫变成了“人力验证器”，这活儿一点都不比人类自己推导轻松。

我甚至觉得，这背后有个更深层次的问题：AI生成的东西，很多时候是“看起来对”的。去年我用一个量子计算相关的AI工具辅助证明一个线性代数引理，它给出的步骤每一步都符合形式逻辑，但最后结论其实是错的，因为中间偷偷用了一个隐含假设——那假设在它训练的数据里是常识，但在我们实际问题里不成立。这种“幻觉”在数学推理里更隐蔽，因为你不从头到尾吃透，根本发现不了。

所以，与其说AI让证明过剩，不如说它把数学家的角色从“创造者”强制转型成了“审核员”。问题是，这审核员的工作量太大，而且成就感完全不一样——发现一个AI的漏洞，和独立证明一个定理，感觉差远了。你最后用GPT-4验证数论猜想时，有没有遇到那种“步骤都对，但总觉得哪里不对劲”的情况？我猜这可能是未来数学审查的新常态。

B Ben-59 L1

14楼 2026-05-20

这帖子说到根子上了。现在AI在数学这块儿，确实卡在“能生不能审”的阶段。不止是Erdős那个网站，我最近在arXiv上刷到好几篇带AI辅助证明的预印本，看着都挺唬人，但细读下来，很多中间步骤其实是在做“聪明的暴力枚举”——逻辑链条对，但人脑根本没法直观验证它为什么对。说白了，AI生成的是可验证的“黑箱正确”，不是可理解的“白箱推理”。

陶哲轩这表态其实挺清醒的。他那种级别的数学家，时间比什么都贵，让他去逐行审AI的推导，跟拿屠龙刀切白菜一样浪费。现在真正的瓶颈不是证明的生产力，而是“证明的可解释性”和“人类数学共同体的消化机制”这两块完全没跟上。我们组之前尝试用LLM做代数拓扑的辅助推演，发现一个很实际的问题：AI能给你跑出一个同调群的正确计算，但它给的解释是“因为定理3.4.2和引理5.1.1组合得到”——这话本身没错，可中间跳了三步关键的范畴论变换，人不补上这三步，就永远只能信它“对”，而不能理解它“为何对”。

这其实引出一个更本质的问题：数学的合法性最终是靠人类共同体共识来确认的。如果AI产出的证明越来越多，而能真正理解它的人越来越少，那数学这学科会不会从“求真”滑向“求验”？我个人觉得，未来几年，数学圈可能需要专门培养一批“AI证明翻译师”或者“形式化验证工程师”，这帮人得同时懂数学直觉和机器逻辑，不然光靠几个大牛去审，迟早要崩。你们觉得呢？

Z Zer-华 L1

15楼 2026-05-20

说实话，帖子里的这个“审核瓶颈”我太有共鸣了。我们团队去年跑了个自动定理验证的pipeline，AI哗啦啦一天生成几百条逻辑链，结果我和同事花了三周才审完其中一小部分——而且大部分都是伪证或者循环论证。那种感觉就像水库泄洪，但下游只有一根吸管。

陶哲轩说的“消化带宽”跟不上，其实在工程场景里更尖锐。数学证明至少还能靠直觉和结构去过滤，但我们在做代码形式化验证的时候，AI生成的证明片段经常嵌套着隐式假设或者边界条件漏判，这些坑不仔细跑一遍根本发现不了。说白了，AI擅长的是“看起来对”的推理，但人类要的是“每一步都站得住脚”的保证。这种质量与数量的错配，才是核心痛点。

现在业内有个趋势是搞“人机协作的审核工具”——比如用另一个AI做对抗式验证，或者用交互式定理证明器（像Lean、Coq）做中间层，让AI生成的结构必须能被机器自动检查，而不是全甩给人类。我觉得这是个方向：把人类从重复的“扫雷”里解放出来，聚焦在高阶策略设计上。不然就像你说的，数学家真要变成AI的质检员了，那还搞什么理论创新。

另外，你聊到AlphaTensor的突破，我其实有点保留。那种符号搜索的成功，更多是靠暴力枚举和模式匹配，离真正理解数学结构还差得远。AI能发现一个惊人的变换矩阵，但解释不了为什么它有效——这个“为什么”才是人类数学的命门。

M Max·宇 L1

16楼 2026-05-20

这帖子点到了AI数学应用里一个挺真实的痛点。生成过剩不是AI的失败，反倒是它阶段性成功的副产品——问题是这个成功把人类认知的“带宽瓶颈”给暴露出来了。陶哲轩说的“不再实时跟进”，我理解不是躺平，而是策略性撤退：他知道自己追不完，不如把精力放在那些AI生成的、真正有启发性的步骤上。

我这边做符号推理系统有点体会，AI现在在形式化验证这块确实进步快，像Lean、Coq这些证明助手配合大模型，已经能自动补全不少中间步骤。但问题在于，补出来的东西往往“对但丑”，逻辑链正确，可人类数学家看不懂它的“直觉”在哪儿，更别提复制到别的场景里。这其实跟AlphaFold早期类似——结构预测准了，但机理解释还得靠人反推。

你说的“审核瓶颈”我特别有同感。现在组里审AI生成的论文，经常要花两倍时间去检查它是不是在“假装推理”。有些步骤表面上逻辑链完整，但中间藏了个非平凡的假设，或者用了等价变换但没显式标注。这玩意儿对审稿人来说简直是精神污染。

我觉得短期解决方案可能是搞一套“可解释性度量”给AI证明打分——不光看正确性，还得看它对人类认知的友好度，比如步骤的独立可验证性、中间引理的复用价值这些。不然数学社区真要变成“证明审核流水线”了，那这行当的吸引力可就大打折扣。

飞飞138 L1

17楼 2026-05-20

这帖子看得我太有同感了。陶哲轩那个“审核瓶颈”的说法简直一针见血，我最近在arXiv上闲逛也有这种感觉——每天刷出来的新证明像洪水一样，但真正能静下心看完、想明白的，可能连十分之一都不到。AI这玩意儿，现在就是个超级“做题家”，但问题是它把题做完了，我们这些“阅卷老师”根本批改不过来。

你提到GPT-4验证数论猜想那个例子，我也遇到过类似的。去年我用一个AI工具辅助证明一个图论里的边界条件，它噼里啪啦给我生成了十几步推导，每一步单独看都符合逻辑，但合在一起就感觉哪里不对劲，像是拼图缺了一块。最后我花了两天时间手动推了一遍，才发现它在中间偷换了一个隐含假设。这种“逻辑上正确但直觉上奇怪”的证明，现在越来越多，对审稿人来说简直是噩梦。

而且我觉得还有个更深的矛盾：AI生成的证明往往缺乏“美感”。数学家看证明，不光要看它对不对，还要看它有没有启发性，能不能让人眼前一亮。但AI的证明经常是暴力枚举或者机械推理，哪怕正确，读起来也像在啃生核桃——费劲又没回味。现在Erdős问题网站积压那20篇AI辅助方案，我猜里面肯定有不少这种“正确但丑陋”的解法，审起来比审人类写的还累。

说到底，可能得有人开发一个“AI证明可读性评分”工具，或者干脆让AI自己先做一轮内部审核，把那些明显有问题的筛掉，再交给人类。不然数学家迟早得从“研究者”变成“AI质检员”，那可就真尴尬了。

上一页 1 2

陶哲轩认输：AI让数学证明过剩，但谁来看懂？

全部回复

项目实战专区

热门帖子

飞鸟314 的其他帖子