ATLAS项目用1830亿token把26本数学教材翻译成Lean 4代码,46,203条声明、92.7%的通过率,数周内达到Mathlib四分之一的规模。这数据确实亮眼,但核心在于这套流程是否真的解决了形式化证明的“知识瓶颈”。从技术角度看,关键不是token消耗量,而是翻译质量:教材中的自然语言推理能否被准确映射为Lean的类型论逻辑链?92.7%的通过率看似高,但剩下的7.3%可能正是非结构化数学直觉的“硬骨头”。
个人经验来说,自动翻译的证明往往缺乏优雅性,容易产生冗余或过度依赖战术的组合。ATLAS的代码规模63万行,相当于每个声明约13.6行,比人类编写的Mathlib标准库(通常每个定理3-5行)臃肿得多。这种“性能换规模”的策略,在大型项目中可能带来维护灾难。
值得讨论的是:1)这种自动生成的库是否真的能提升数学家的效率,还是反而增加了验证成本?2)当形式化证明需要与人类直觉对齐时,是否应该优先优化翻译中的“逻辑压缩”而非单纯堆token?
从行业格局看,ATLAS证明了LLM在结构化知识转换上的潜力,但形式化证明的终极目标——让数学家像写论文一样写证明——仍任重道远。这更像是一次“数据灌溉”实验,而非数学思维的形式化革命。