Dwarkesh Patel：下一代AI，可能是干活干出来的

{
title: "下一代AI训练新范式：RLVR与可磨性之争",
summary: "硅谷知名播客主持人Dwarkesh Patel提出，AI下一代训练范式可能是RLVR（可验证奖励强化学习），但关键在于任务是否具备“可磨性”——即可大规模复制、回放和并行试错的能力。代码、数学等任务因易于“刷题”进展迅速，而真实世界任务如创业、法律诉讼等因反馈慢、变量多、不可重置，难以纳入该范式。这引发核心问题：RLVR训练的AI能否泛化到复杂现实场景？",
content: "硅谷知名科技播客主持人Dwarkesh Patel最近抛出了一个让AI从业者深思的问题：下一代AI的训练范式会是什么？年仅25岁的他，凭借对Ilya Sutskever、Andrej Karpathy等顶尖AI专家的深度访谈，已成为AI圈的核心观察者。在最新播客中，他将前沿实验室押注的路线总结为RLVR——Reinforcement Learning with Verifiable Rewards，即可验证奖励强化学习。简单来说，就是让模型在大量能自动判断对错的任务中反复试错，从而训练出规划、纠错和长期执行能力。代码和数学领域的快速进展，很大程度上就源于这一思路。\n\n但Dwarkesh真正追问的是：仅靠可验证任务训练，够不够？他的答案是可能不够，因为一个任务光可验证还不够，还必须“可刷”。他引入了一个关键概念：grindability，即可磨性，放在AI训练语境中就是可反复刷题或可大规模rollout的能力。代码任务就是典型可刷任务——你可以准备一个软件仓库、一个待修复bug和测试用例，然后将同一环境复制成几千份，让几千个agent同时尝试，谁通过测试谁得分。这个过程可并行、可复现、可重置，非常适合RLVR。数学题也是同理。但为什么AI在“使用电脑”这件事上进展反而比代码和数学慢？表面上看，电脑使用也可验证，比如东西是否下单成功、税表是否提交。但问题在于它难以大规模复制和回放——你不能让一千个agent同时去Amazon上反复跑同一个结账流程，因为真实网站会识别bot、封禁账户、改变状态。克隆Slack、Gmail等应用做模拟器，在当前阶段仍是高成本、低扩展性的工程。\n\nDwarkesh指出，AI在某个领域进步快，不仅因为答案可验证，更因为该领域能被包装成可复制、可回放、可并行试错的训练环境。这解释了为何代码、数学、游戏类任务成为RLVR的天然温床，而许多真实世界任务却难以直接纳入。他进一步将问题推向更复杂的现实：如果我们想训练AI从零开始创业、赢一场官司、在市场中稳定赚钱或帮助候选人赢得选举，怎么办？这些任务当然也有结果——公司有没有做起来、官司有没有赢、交易有没有盈利——但它们的问题在于反馈太慢、变量太多、世界不可重置，也无法在数据中心里复制一千遍。一次创业可能持续数年，一次政治竞选依赖具体地区、候选人、选民情绪和偶然事件，一次法律案件也无法从同一起点复制成一千个平行宇宙。这类环境在强化学习中接近reset-free、non-stationary environment：不能随便重置，且环境本身不断变化。\n\nDwarkesh因此提问：RLVR在可验证、可刷的环境里训练出来的agent，真的能泛化到这些真实世界任务吗？这不是一个可以靠口号回答的问题，而是实证问题。乐观派会说，只要RLVR环境足够多、足够复杂，模型最终会学到通用的agent能力——在代码、数学、网页、工具使用中练出的规划和试错能力，最终会迁移到创业、组织管理、政治、法律、科学研究等领域。但Dwarkesh对此保持怀疑，因为真实世界最有价值的知识往往不是以清晰、可验证、可重复的方式出现的。它们可能来自一次含混的客户反馈、一次失败的会议、一个组织内部的隐性流程，或一种只有在真实任务中才会暴露的失败模式。模型要学会这些东西，不能只靠刷题，还必须具备真正的样本效率。这最终将讨论引向核心：learning back to the weights，把学习重新写回权重。今天的大模型已很擅长in-context learning，可以在长上下文里读资料、理解项目背景、临时适应需求，但这种学习大多停留在上下文窗口里，会话结束后模型并未真正更新其知识。下一代AI能否突破这一限制，将是决定其能否应对真实世界复杂任务的关键。"
}

Dwarkesh Patel：下一代AI，可能是干活干出来的

相关推荐

马尾辫项目爆火：Codex一键省Token大法实测

清研精准获数亿元B3轮融资，剑指物理AI数据基建

Seed 2.1 Pro编程评测：难逃平庸的AI模型

马尾辫项目爆火：Codex一键省Token大法实测

清研精准获数亿元B3轮融资，剑指物理AI数据基建

📖 更多原创