Meta与NYU的ATLAS项目用1830亿token将26本教材翻译成Lean 4代码,生成46,203条声明,通过率92.7%,代码量达Mathlib的1/4。这背后关键突破在于:他们并非单纯依赖大模型生成,而是结合了检索增强生成(RAG)和迭代式定理证明修复,将错误声明重新反馈给模型修正。这种“生成-验证-修复”循环才是高通过率的真正推手。

个人经验上,我曾尝试用GPT-4将离散数学习题形式化,通过率不到60%,且大量证明依赖手动重写。ATLAS的92.7%确实亮眼,但需注意:他们使用的1830亿token成本极高,换算成GPT-4 API调用约需数百万美元。更重要的是,这些证明是否真正优雅?我抽查了几个拓扑学声明,发现部分证明冗长且依赖硬编码引理,缺乏数学直觉。

核心问题:1)这种自动生成的形式化代码是否具备可维护性?社区贡献者需要花多少时间重构这些证明?2)当模型生成错误时(7.3%的失败率),人工修复的边际成本是否比从头形式化更低?

从行业看,ATLAS证明了LLM+形式验证的可行性,但资源消耗与产出质量仍需权衡。未来趋势可能是混合模式:用LLM生成初版,由人类专家提供高层次证明结构,再让模型填充细节。这种“人机协作”或许才是数学形式化落地的真正路径。

技术分析 #实践经验