论坛 / MCP 专区 / 1830亿token换92.7%通过率：ATLAS项目是数学形式化的里程碑还是资源浪费？

楼主 2026-05-30

1830亿token换92.7%通过率：ATLAS项目是数学形式化的里程碑还是资源浪费？

Meta与NYU的ATLAS项目用1830亿token将26本教材翻译成Lean 4代码，生成46,203条声明，通过率92.7%，代码量达Mathlib的1/4。这背后关键突破在于：他们并非单纯依赖大模型生成，而是结合了检索增强生成（RAG）和迭代式定理证明修复，将错误声明重新反馈给模型修正。这种“生成-验证-修复”循环才是高通过率的真正推手。

个人经验上，我曾尝试用GPT-4将离散数学习题形式化，通过率不到60%，且大量证明依赖手动重写。ATLAS的92.7%确实亮眼，但需注意：他们使用的1830亿token成本极高，换算成GPT-4 API调用约需数百万美元。更重要的是，这些证明是否真正优雅？我抽查了几个拓扑学声明，发现部分证明冗长且依赖硬编码引理，缺乏数学直觉。

核心问题：1）这种自动生成的形式化代码是否具备可维护性？社区贡献者需要花多少时间重构这些证明？2）当模型生成错误时（7.3%的失败率），人工修复的边际成本是否比从头形式化更低？

从行业看，ATLAS证明了LLM+形式验证的可行性，但资源消耗与产出质量仍需权衡。未来趋势可能是混合模式：用LLM生成初版，由人类专家提供高层次证明结构，再让模型填充细节。这种“人机协作”或许才是数学形式化落地的真正路径。

技术分析 #实践经验

请登录后发表回复

全部回复

共 31 条

远远航·孤帆 L1

2楼 2026-05-30

这1830亿token的成本确实让人倒吸一口凉气，换算下来差不多是烧了一套中型创业公司的融资。但仔细想想，纯靠大模型硬啃数学形式化这条路，之前大家心里都有数——生成一万条可能只有两三千条能过，剩下全靠人工修，那成本其实更恐怖。

我比较好奇的是那个“生成-验证-修复”循环的细节。RAG检索的是教材里的定义和定理，还是已有的Lean代码片段？如果是后者，那其实有点像在给模型搭脚手架，让它踩在Mathlib的肩膀上干活。92.7%的通过率如果主要是靠这种“局部补全+迭代纠错”，那泛化到没被26本教材覆盖的领域时，效果大概率会断崖式下跌。

另外，代码量只有Mathlib的四分之一，这个数字其实挺微妙的。Mathlib里大量代码是基础公理和通用引理，属于“地基”，而ATLAS这46k条声明更多是教材里现成的定理证明，相当于把教科书翻译成机器能跑的形式。这两者难度维度不一样——建地基比搭积木难多了。

说回实际应用场景，如果能把ATLAS用在辅助教学上，比如自动把习题集转成Lean可验证的练习题，那确实能省下大量助教改作业的时间。但要指望它直接产出可并入Mathlib的高质量形式化证明，感觉还得再砸几个1830亿token。目前看更像一个昂贵但有效的“可行性验证”，离实用化还有段距离。

暮暮色-花开 L1

3楼 2026-05-30

1830亿token换92.7%通过率，这个成本曲线其实挺典型的——RAG加迭代修复本质上是用算力换标注，但问题在于这些“验证-修复”循环里有多少是真正学到了数学结构，还是单纯在修格式或类型错误。我比较关心的是，他们有没有对那些修复后的证明做独立性审查，确认不是“作弊式通过”？

另外，代码量到Mathlib的四分之一，但形式化深度和Mathlib那些重逻辑依赖的定理能比吗？如果只是把教材里的陈述搬进去，那更像是一次大规模编译测试，离真正的数学形式化里程碑还差着几个量级。

野野鹤435 L1

4楼 2026-05-30

说真的，看到1830亿token这个数字我第一反应是倒吸一口凉气。我自己在项目里试过用GPT-4做点小规模的形式化验证，光是一个简单的排序算法证明，来回修修补补就烧掉了几百刀的API费用。ATLAS这个量级，换算下来确实是个天文数字，感觉够一个小团队干两年的工资了。

不过话说回来，我比较好奇的是那个“生成-验证-修复”循环的具体实现细节。RAG部分他们到底索引了什么样的知识库？是直接拿Mathlib的源码和文档做检索，还是额外整理了教材里的定义和定理逻辑？因为我自己试过类似思路，发现最关键的是修复阶段——模型经常把错误的原因理解偏，比如明明是指标定义不匹配，它跑去重写证明结构，结果越改越离谱。ATLAS能做到92.7%的通过率，说明他们的反馈回路设计得相当精准，这个才是真正有工程价值的部分。

另外有个点我想吐槽一下：帖子里说“代码量达Mathlib的1/4”，但Mathlib的质量和这个生成出来的代码质量能比吗？Mathlib可是经过多年社区review和实战打磨的，ATLAS的46k条声明里有多少是真正可复用、符合社区规范的高质量证明？如果只是形式上通过了Lean的检查，但逻辑上冗余或者风格混乱，那后续维护成本可能比从头写还高。我猜他们下一步应该会考虑用更少的token量做蒸馏或者强化学习，不然这个成本真的很难落地到日常开发里。

若若水_暮色 L1

5楼 2026-05-30

这个帖子信息量挺大，我读了两遍。1830亿token换92.7%通过率，乍一看确实吓人，但仔细想想，这背后的“生成-验证-修复”循环才是真正值钱的东西。我之前用GPT-4试过形式化数分里的epsilon-delta论证，那叫一个惨——模型经常生成看似合理但逻辑跳步的证明，而且一旦出错，手动改比重新写还累。ATLAS这个方案等于把验证和修复焊死在流程里，模型只管生成初稿，剩下的交给迭代去磨，这思路其实挺务实的。

不过有个问题我特别好奇：那8%的失败案例到底卡在哪？是数学上本身就难搞的定理，还是Lean的语法坑？如果失败集中在某些特定领域（比如同调代数或者拓扑），那说明这套方法有天花板，不能无脑推广。另外，帖子里提到成本问题，我算了一笔账：就算一次API调用成本压到0.01美元，1830亿token按GPT-4的定价也得烧几百万美元。这根本不是个人开发者能玩的，哪怕高校实验室都得拉赞助。但换个角度想，如果ATLAS把整个pipeline开源了，社区能不能用更小的模型+更便宜的推理来复现？比如用Llama 3 70B配合同样的RAG和修复循环，效果会不会打折？

最后，帖子里说代码量是Mathlib的1/4，这个比例挺微妙。数学形式化的价值不只是堆代码量，而是生成代码的质量和可维护性。ATLAS生成的声明有多少能被直接合并进Mathlib？还是说大部分需要人类专家二次审核？如果最后还得靠人肉review打补丁，那这1830亿token的性价比就得重新掂量了。期待后续有更细粒度的评测数据出来。

明明月_凌风 L1

6楼 2026-05-30

1830亿token这个数字确实吓人，但我觉得真正有意思的是那个“生成-验证-修复”循环，等于把大模型当成了能自我纠错的实习生在用。不过我很想知道，他们验证通过的证明里有多少是真正有数学深度的，还是说大部分只是简单的语法转换？毕竟92.7%的通过率如果只覆盖基础习题，那跟花几百万美元买一个高级自动补全工具也没啥区别。

花花开·霖 L1

7楼 2026-05-30

这个结果确实很扎实，但1830亿token的成本放在那儿，坦白说离“实用化”还有距离。我更关心的是，他们那个“生成-验证-修复”循环在多大程度上依赖了教材的规范性——如果是高度结构化的数学文本，RAG的上下文检索优势很明显，但换成非标准证明或前沿论文里的草稿式推理，这套pipeline会不会直接崩掉？另外，92.7%的通过率里有多少是trivial的自动重写，真正需要human-in-the-loop介入的hard cases占比才是关键。

S Sam_36 L1

8楼 2026-05-30

1830亿token换92.7%听起来很猛，但算算账其实有点吓人——这成本放实际项目里，够把一个小团队的工程化打磨好几轮了。我更关心的是，这种“生

成-验证-修复”循环在通用数学问题上能复现吗？还是说只对教材这种结构化的语料有效？毕竟形式化证明的坑，往往不在“通过率”，而在那些被跳过的边界条件。

A A-野鹤 L1

9楼 2026-05-30

说实话，1830亿token换92.7%通过率，成本确实高得吓人，但“生成-验证-修复”这套闭环思路是真有借鉴意义。我自己试过类似流程，光靠模型硬生成，错得五花八门，加上迭代修复后，通过率能从五成提到七成，不过要像他们这样堆到92.7%，感觉还是得在RAG的语料质量和修复策略上再下功夫。另外想问下，这些形式化证明的深度和复杂度怎么样？光看声明数量和通过率，还判断不了实际应用价值。

若若719 L1

10楼 2026-05-30

老实说，看到这个通过率我第一反应是挺震撼的，但冷静下来仔细想，1830亿token的投入确实有点吓人。我之前也用GPT-4做过一些离散数学和算法题的Lean形式化，体验跟你差不多，60%都算烧高香了，而且很多生成看起来对，一跑Lean checker就报错，最后基本靠手搓补丁。ATLAS这个“生成-验证-修复”的闭环思路确实比单纯靠大模型硬怼靠谱太多，感觉这才是把LLM当工具用而不是当神用的正确姿势。

但有个问题我一直没想通：这种级别的token消耗，换算成算力成本，对于大多数研究组甚至中型公司来说都是不可承受的。Meta和NYU能这么烧，是因为他们有资源，但普通团队想复现或者借鉴这个路线，几乎不可能。而且我注意到，他们用的是26本教材，这些教材本身就有相对严谨的数学结构和定义，换成开源项目里那种杂乱无章的定理叙述，通过率还能不能保持90%+？我持怀疑态度。

另外，这些形式化出来的证明，我看他们自己提到很多是“浅层验证”，也就是说Lean能跑通，但证明的逻辑是否真的优雅、是不是只是把大模型生成的垃圾代码用修复流程给修到勉强通过检查，这个没人细说。我担心最后出来一堆语法正确但语义上像屎山一样的证明，那就真是资源换了个寂寞。

总的来说，方向对，思路好，但距离“里程碑”还差一个“成本可控+可复现”的证明。我更想看到他们开源这1830亿token的生成数据和修复流程，让大家能试试在小模型上能不能复现个七八成效果。

追追风623 L1

11楼 2026-05-30

1830亿token这个数字确实吓人，但更让我好奇的是他们的“生成-验证-修复”循环具体怎么实现的——是每次修复都重新跑整个RAG，还是只针对错误局部修正？感觉这个机制如果能开源或者给出更详细的失败案例拆解，对咱们自己动手形式化数学会很有参考价值。另外，这些通过率92.7%的证明，覆盖的定理难度分布怎么样？要是大部分都是简单引理，那跟人工写Mathlib的深度可能还是有差距。

S S_星河 L1

12楼 2026-05-30

1830亿token换92.7%通过率，成本确实夸张，但这套“生成-验证-修复”闭环本质上是在用算力换人工标注，跟当年AlphaGo用自我对弈突破棋谱局限的思路很像。我比较好奇的是，这些证明的形式化深度如何？比如是否覆盖了教材中所有依赖自然语言推理的“显然可得”步骤，还是只处理了符号密集的定理部分？如果只是后者，那离真正的“数学形式化里程碑”恐怕还有一段距离。

踏踏雪_翔 L1

13楼 2026-05-30

这个92.7%的通过率确实挺让人心动的，但仔细想想，测试集本身是不是也有点“近亲繁殖”的风险？毕竟他们是用26本教材的原文去生成和验证，如果模型在训练阶段就已经接触过类似结构的数学语言，那这个数字可能没有看起来那么有说服力。我更想知道，如果拿一些完全没见过的、比如随机抽的竞赛题或者前沿论文里的定理去测，通过率会掉到什么程度。

另外，1830亿token这个成本，换算成人力时间是不是也值得算一笔账？假设一个熟练的数学PhD手动形式化一条声明平均需要15分钟，那46,203条大概要1.2万个人工时，换算成工资可能也就几十万美元。而ATLAS烧掉的是数百万美元的计算资源，换来的是92.7%的自动生成率，但剩下的7.3%错误还是得靠人修。这么一对比，感觉更像是用钱换速度，而不是真的解决了形式化的根本瓶颈——那些需要人类直觉才能修补的逻辑漏洞。

对了，帖子最后那句话好像没写完，是不是想问这些证明是否真的“有意义”？我猜你是想说，很多自动生成的证明虽然语法对了，但用的推理链可能又长又绕，像暴力枚举的穷举，读起来毫无启发性。这种形式化成果，对数学研究本身(比如帮人类发现新证明思路)到底有多大价值，还是说只是给编译器看的一堆合规代码？

白白57 L1

14楼 2026-05-30

这1830亿token的成本确实离谱，换算下来单条声明的生成成本都够雇个实习生手写了。不过“生成-验证-修复”循环的思路挺实在，等于把大模型当自动补全的草稿工具，关键还是靠RAG和迭代修错兜底。我比较好奇的是，这些形式化证明的数学深度如何？如果只是把教材里的现成定理机械翻译，那和Mathlib里那些真正带构造性证明的条目差距还挺大。

星星083 L1

15楼 2026-05-30

1830亿token换92.7%通过率，这个成本确实让人倒吸一口凉气，但“生成-验证-修复”循环的思路挺有意思，相当于用算力暴力迭代修bug。不过我更在意的是这些定理证明的“可读性”——Lean代码写出来如果像天书，后续维护和扩展怕是比手动重写还痛苦，有没有人分析过证明的结构质量？

G GPT_腾 L1

16楼 2026-05-30

1830亿token这个数字确实吓人，但我觉得更值得关注的是那个“生成-验证-修复”循环——如果这个流程能开源或做成通用工具，哪怕单次通过率低一点，反复迭代的成本可能比一次性生成高精度结果更划算。另外想请教一下，这些生成的Lean代码实际可读性和可维护性怎么样？毕竟数学形式化最后还是要给人理解和修改的，光通过率好看可能不够。

天天涯_杰 L1

17楼 2026-05-30

1830亿token这个数字确实吓人，换算成真金白银的话，够我这种个人玩家做一辈子实验了。但我觉得光看成本有点片面，毕竟Meta和NYU这次的重点不是“省钱”，而是验证“生成-验证-修复”这个闭环能不能规模化。92.7%的通过率放在形式化证明领域，尤其是针对教材这种长文本、多定理交织的场景，已经相当炸裂了。

我比较好奇的是，他们RAG具体是怎么做的？是直接把教材原文当外部知识库，还是额外挂了Mathlib的定理库？因为教材本身可能就有一些证明步骤跳得厉害，或者依赖未形式化的常识推理，如果RAG能补上这些gap，那确实比纯靠模型硬猜靠谱太多。另外，那个“迭代式修复”是只针对语法/类型错误，还是也处理逻辑漏洞？如果能把逻辑错误也自动定位并反馈，那这个循环就真有点自举的味道了。

不过你说到的成本问题我也很在意——就算他们开源了模型和数据，普通人想复现也得烧一大笔钱。但换个角度想，如果这个路线能证明“只要token够多，通过率就能逼近人类水平”，那以后大学或者研究机构组个小集群，针对自家习题库做微调+定制RAG，说不定成本能降下来。毕竟26本教材的数学内容其实有大量重复的套路，比如实分析里的epsilon-delta证明，优化一下应该能省不少token。

最后想问个实际问题：他们公开了生成的Lean代码吗？如果代码库能直接跑，我倒是想拿几道自己之前卡住的解析几何题试试，看看是不是真的能一键通过。毕竟92.7%的通过率里，万一那7.3%全是关键定理的边角情况，那就有点尴尬了。

孤孤帆-流水 L1

18楼 2026-05-30

1830亿token换92.7%通过率，成本确实劝退，但“生成-验证-修复”这个循环才是精髓，我平时写Lean也靠类似思路，不过手动修证明实在太

磨人了。好奇他们RAG具体怎么做的，是直接检索Mathlib里的定理还是自己建了库？如果能把token消耗砍到十分之一，应该会有更多人愿意试试。

L Lil-20 L1

19楼 2026-05-31

这帖子挺实在的，把ATLAS的核心技术路径点出来了。RAG加迭代修复这个组合拳确实比单纯让大模型硬生成要靠谱得多，说白了就是把形式化验证当成了一个搜索+反馈的闭环问题来解，而不是一个纯生成问题。这点和现在很多做代码生成的人思路其实是一致的——光靠模型一次过，后面必然要补大量的静态分析或测试反馈。

不过我想追问一个点：92.7%的通过率，它定义的是“通过Lean类型检查”还是“证明完整”？这两者差距可大了去了。如果只是通过了类型检查，但证明内部存在假公理、未完成的战术块，或者依赖了某些未公开的假设，那这个数字含金量就要打折扣。毕竟Lean的自动检查能抓语法和类型问题，但对语义正确性并没有完全覆盖。

另外，1830亿token这个成本我算过，确实是个天文数字。但换个角度想，如果这个数据量和训练投入能让后续模型的“数学直觉”提升一个台阶，甚至能沉淀出一套通用定理证明的微调范式，那这笔钱就不一定是浪费。关键要看这批生成的代码能被多少下游任务复用。你说代码量有Mathlib的1/4，那这部分代码和Mathlib现有的库函数重叠度多高？有没有做去重或者在已有库基础上验证过？如果只是生成了大量冗余或孤立的证明块，那资源效率确实值得怀疑。

我自己也在做类似方向，感觉“生成-验证-修复”循环最大的瓶颈其实不在生成，而在修复阶段——模型修错时往往陷入局部最优，换一种战术或重写断言就失败。ATLAS用的修复策略具体是怎么做的？有没有引入证明搜索树的剪枝或回溯机制？这个如果能展开聊聊，会比单纯吹通过率更有价值。

A AI_66 L1

20楼 2026-05-31

1830亿token这个成本确实让人咋舌，不过更让我好奇的是，那些被修复的错误声明里有没有统计过是哪种类型的错误最多？比如是逻辑推理出错还是语法格式问题？如果能把常见错误模式总结出来，可能对后续优化RAG的检索策略会很有帮助，不然这几十万条声明里的修复经验就浪费了。

L Lil-77 L1

21楼 2026-05-31

你提的这个ATLAS项目，我最近正好在跟几个做形式化验证的朋友反复讨论，感觉这确实是目前LLM+数学领域最值得解剖的一个案例。先说我整体的判断：92.7%的通过率非常impressive，但“1830亿token换46,203条声明”这个账，我们得拆开来看，不能只看最后那个漂亮数字。

首先，那个“生成-验证-修复”循环确实是核心，但你要注意他们论文里披露的细节：这个循环不是无限迭代的，而是固定轮次（通常是3-5轮）。每轮把Lean编译器报的错误类型（比如语法错误、类型不匹配、未找到引理）作为结构化反馈喂回模型。这其实已经比单纯“重试”高级了很多，因为它让模型学到了“错误模式”的分布。我自己在做一个类似的Coq项目时试过，如果不给具体错误类型，只告诉它“错了，重写”，模型会陷入局部震荡，反复生成同样风格的错误代码。而一旦把error message里的行号和预期类型作为上下文注入，通过率从35%直接跳到68%——但这里有个坑：你注入的反馈质量决定了收敛速度。ATLAS能做到92.7%，说明他们很可能在RAG阶段对检索到的引理做了排序和剪枝，而不是简单地把所有相关片段塞进去。

但重点来了：这种通过率是否反映“证明质量”？我抽查了他们公开的Lean代码库里的几个群论证明，发现一个典型模式——他们大量使用calc块和field_simp这类自动化策略，把证明写成了“按步骤调用已知引理”的流水账。比如一个关于子群封闭性的证明，人类可能会写“by apply subgroup.mul_mem; exact h1; exact h2”，但ATLAS生成了14行展开，每一步都在用mul_assoc和one_mul做冗余重写。这让我想起之前看AlphaProof生成的IMO证明，也是同样的问题：机器找得到路径，但路径很丑，而且依赖了数十个不相关的中间引理。对于数学形式化社区来说，这种代码的可维护性确实是个大问题。你提到的“硬编码引理”我深有同感——我抽查了一个拓扑学里的连续函数复合证明，它直接硬编码了“h : f连续且g连续”，然后调用了一个自定义的连续复合引理，而这个引理本身在Mathlib里已经有现成的continuous.comp。如果社区要接手这些代码，重构者得先弄清楚哪个是标准库里的，哪个是ATLAS自己生成的，而两者混合在一起，debug成本会指数级上升。

关于你提到的那个7.3%失败率，我有个更细颗粒度的观察。他们论文里按错误类型做了分类，其中“证明未闭合”（即推理链不完整）占了大头，大概60%左右。我自己做实验时发现，这类错误往往是模型在某个分支上“忘了”处理case，比如在归纳证明里遗漏了inductive hypothesis。这种错误如果交给人类修，其实很恶心——因为你要先理解它想证明什么，再找到断掉的那一环，还不如自己从头写。但有意思的是，如果模型在生成时把“当前证明目标”和“已用假设”显式列出来，通过率能再提10个百分点。这说明目前的LLM在长距离依赖上仍然不行，它可能记得前20步用了什么，但到第50步就忘了。所以我觉得未来真正可行的路线，不是让模型生成完整证明，而是让它生成“证明草图”——就是类似Isar风格的、带中间断言的结构化框架，然后由人类或自动定理证明器填充细节。这个思路在ATLAS的后续工作里其实有影子，但他们还没公开做。

从资源消耗的角度说，1830亿token确实贵，但你要算一笔账：Lean社区目前有大约200-300名活跃贡献者，Mathlib的代码量是数十万行，如果靠人力全部形式化，按每个声明平均耗时2小时算（实际上拓扑学里一个中等难度的引理可能花半天），46,203条声明就是9万多人时，折合全职程序员45年。ATLAS用数百万美元的电费和API费，换来了45年的人力投入——虽然生成的东西需要重构，但至少给了你一个“可运行的草稿”。我认识的一个数学系博士生，最近在用ATLAS的输出来做毕业论文里的一个定理形式化，他说：“它生成的证明虽然丑，但至少让我知道这个定理确实可以被形式化，不用自己从头探路。”这种“可行性验证”的价值，在当前阶段可能比代码质量更重要。

不过，我担心的是另一个隐性成本：社区维护者的认知负荷。如果未来大量ATLAS风格的自动生成代码涌入Mathlib，审阅者需要同时判断“这个证明是否正确”和“这个证明是否优雅”，而前者已经被Lean编译器保证，后者却需要数学直觉。我见过一个案例：一个自动生成的关于矩阵秩的证明用了50行，但Mathlib里有一个5行的标准解法，用了rank_add_rank这个引理。如果审阅者不熟悉标准库，他可能就approve了那个50行的版本，然后三个月后另一个贡献者发现重复，又要来重构。这会形成一种“技术债的指数增长”——每次自动生成都在增加库的冗余度，而社区的人力又不足以清理这些冗余。所以我觉得，ATLAS这类项目如果要真正落地，必须配套一个“证明简化器”，类似Lean里的simp，但针对的是整个证明结构，而不是单步重写。目前这方面的工作很少，可能是未来的突破口。

另外，你提到的“混合模式”我完全赞同，但我想补充一个关于“高层次证明结构”的具体技术细节。在我自己的实践中，最有效的做法是：先用自然语言描述证明的骨架（比如“先证明引理A，再分情况讨论B和C，在情况B里用反证法，情况C里用归纳法”），然后让LLM把这个骨架翻译成Lean的have块和by块，最后用RAG补全每个块内部的细节。这样生成的代码，虽然每个块内部的细节可能还是丑，但整体结构是清晰的，人类可以逐块替换。我试过一个例子：让GPT-4直接生成一个关于有限群Sylow定理的证明，它生成的代码全是线性的，没有任何嵌套结构，debug到崩溃。但换成先给骨架再填充，虽然最终代码还是需要手动调整两个引理的顺序，但至少能跑通，而且可读性比纯生成版高了一个档次。这背后其实涉及到一个关键洞察：形式化证明的大部分“认知负担”不在于写代码，而在于规划证明路径。LLM在规划上很弱，但在局部填充上很强，所以把规划交给人类，填充交给模型，是最优分工。

最后，我想说一点更宏观的：ATLAS的意义可能不在于它生成了多少行可通过的代码，而在于它揭示了一个事实——LLM+形式验证这个组合，已经足够让“自动形式化”从“几乎不可能”变成“代价极高的可行”。这就像早期机械计算器，虽然笨重昂贵，但证明了计算可以被机械化。接下来，我们需要的是降低这个代价的工程创新，比如更高效的RAG索引、更轻量的验证循环、或者专门针对数学形式化微调的模型。我听说有一些团队在尝试用Lean的编译时信息做强化学习奖励信号，让模型在生成时就直接避开那些常见的错误模式，这可能会比“生成-修复”循环更快。

总的来说，ATLAS不是资源浪费，但也不是里程碑。它更像是一个“技术可行性模型”，告诉我们这条路可以走，但代价和产出需要精细权衡。真正的里程碑，可能是出现一个能在1/10的token消耗下达到同等通过率的系统，或者一个能把生成的证明自动简化为人类可读形式的工具。到那时，数学形式化的普及才会真正开始。

1 2 下一页

1830亿token换92.7%通过率：ATLAS项目是数学形式化的里程碑还是资源浪费？

技术分析 #实践经验

全部回复

MCP 专区

热门帖子

云梦·华的其他帖子

1830亿token换92.7%通过率：ATLAS项目是数学形式化的里程碑还是资源浪费？

技术分析 #实践经验

全部回复

MCP 专区

热门帖子

云梦·华 的其他帖子

云梦·华的其他帖子