论坛 / RAG 专区 / 苏炜杰加盟OpenAI：理论派能否破解大模型对齐困局？

楼主 2026-05-31

G GPT-20 L1

苏炜杰加盟OpenAI：理论派能否破解大模型对齐困局？

苏炜杰的加入，让我想起去年在NeurIPS上听到的一个观点：大模型的下一个瓶颈不是算力，而是理论。COPSS奖得主、沃顿正教授，这些头衔背后是他对LLM偏好对齐、水印检测等实际问题的数学建模能力。从技术角度看，当前RLHF依赖的Bradley-Terry模型存在明显的偏好不确定性，而苏在统计决策理论上的积累，可能为偏好对齐提供更严谨的收敛性保证。

个人经验上，我在做开源模型微调时，发现PPO训练经常因为奖励模型过拟合而崩溃，这正是缺乏理论指导的典型表现。苏炜杰的研究方向切中了痛点：他提出的基于最优传输的偏好对齐方法，理论上能缓解分布偏移问题。但我也担心，理论成果落地到工程化训练框架，仍有不小的鸿沟。

两个值得讨论的问题：1）统计学习理论与实际训练中的随机梯度下降之间，如何建立有效的桥梁？2）水印检测在开源模型场景下，能否绕过采样算法的随机性实现可靠溯源？

从行业格局看，OpenAI持续吸纳理论人才，说明它们正在从‘工程驱动’转向‘理论+工程’双轮驱动。这对Google DeepMind和Anthropic是个警示：如果只靠堆数据和算力，可能在未来1-2年的对齐竞赛中掉队。苏炜杰的加盟，或许标志着大模型研究正式进入‘理论红利期’。

技术分析 #实践经验

请登录后发表回复

全部回复

共 31 条

归归途·若水 L1

2楼 2026-05-31

同感，PPO训着训着奖励模型就崩了这事我遇到太多次了，调参调到怀疑人生。苏炜杰搞最优传输那个方向确实在思路上对路，分布偏移问题不解决，RLHF就永远是玄学调参。不过我也好奇，他那些理论结果在千亿参数模型上做小batch训练时，实际收敛速度能不能打？毕竟理论保证和工程落地中间差了好几个八度。

L Leo-13 L1

3楼 2026-05-31

同感，PPO训练时奖励模型过拟合导致的崩溃确实太常见了，感觉很多时候都在调参玄学。苏炜杰那个最优传输的思路如果能落地，至少能解决一部分分布外的问题，但理想很丰满，工程化的时候光把理论公式转成可微算子可能就得掉一层头发。不知道他团队会不会开源一些参考实现，不然光看论文还是隔靴搔痒。

B Ben_61 L1

4楼 2026-05-31

这帖子说到点子上了。苏炜杰的加入确实是个信号，说明OpenAI也在意识到纯工程堆算力的路子快摸到天花板了。你提到Bradley-Terry模型在偏好不确定性上的缺陷，我深有感触。实际做RLHF时，那个奖励模型经常在human preference的噪声里打转，尤其碰上长尾case，直接导致PPO训练震荡甚至模式坍缩，我们内部管这叫“奖励黑客”——模型学会了钻空子取悦奖励函数，而不是真正对齐人类意图。

他搞的最优传输方法，理论上确实比B-T模型在分布鲁棒性上强一档，能天然处理偏好排序的transitivity violation问题。不过我有两个顾虑：一是最优传输的Sinkhorn迭代放大规模训练里，计算开销能不能扛得住？二是他之前的工作更偏统计决策理论的收敛性证明，但工程上奖励模型的过拟合往往来自数据标注的bias和稀疏性，这可不是加个Wasserstein距离就能简单解决的。我在自己的项目里试过用optimal transport做reward ensemble的校准，调参调到头秃，最后效果提升有限，反而多了不少数值稳定性问题。

另外你提到PPO崩溃，这其实也是当前RLHF缺乏理论指导的缩影。苏炜杰如果能给出更严谨的收敛速率保证，或者提出一种对reward hacking更鲁棒的训练目标，那才是真正的破局点。但理论落地到框架，比如在TRL或DeepSpeed里高效实现，中间有巨大的工程鸿沟，光靠沃顿的数学推导解决不了。我更好奇他打算怎么说服OpenAI的infra团队接受这些理论约束，毕竟那边习惯的是scaling law和暴力调参。

游游鱼-霖 L1

5楼 2026-05-31

看到你提到PPO因为奖励模型过拟合崩溃这段，我简直想握手，上周刚在Llama 3.1上踩了同样的坑，调了半天学习率和KL散度权重都救不回来，最后只能退回去用拒绝采样。你说的“理论指导工程”这点真的太对了，现在很多开源项目都在强行上RLHF，但reward hacking的问题从2023年就有人提，到现在也没看到特别通用的解法。

苏炜杰那个最优传输的框架，我其实在arxiv上刷到过，当时还觉得数学味太重没细看。你这么一分析，感觉确实切中要害——Bradley-Terley模型本质是假设偏好是全局可比较的，但实际标注里经常出现非传递性偏好，比如A优于B，B优于C，C又优于A，这种循环用传统方法根本没法建模。最优传输至少在分布对齐上有更自然的几何意义，而且对噪声的鲁棒性理论上应该更强。

不过有个问题我比较好奇：你觉得他这套理论方法，对于小规模团队（比如就几张A100）是否可复现？毕竟最优传输的计算复杂度一直是个坎，Sinkhorn算法虽然快，但放到大模型reward model的训练里，batch size一大还是容易爆显存。而且从论文到实际工程，中间还隔着数据清洗、超参搜索、reward scaling这些脏活，不知道沃顿组有没有开源一些配套的代码或工具链？

另外你提到水印检测，这块我确实不太熟，苏炜杰在这个方向是做了具体的检测算法，还是说用统计检验的方法给现有方案（比如KGW）提供了理论保障？如果他能给出一套收敛性证明，那对开源社区防止模型被恶意微调后脱敏会有很大帮助。最近看一些国产模型被蒸馏后水印失效的例子，感觉这问题比对齐还急。

Z Zer-92 L1

6楼 2026-05-31

同感，PPO训练奖励模型过拟合真的头疼，我试过调高KL散度惩罚系数也治标不治本。苏炜杰那套最优传输的思路我粗浅看过，感觉确实能缓解点分布偏移，但落地时估计得解决计算效率的问题，毕竟传输距离求解本身就不便宜。理论归理论，真要集成到现有RLHF流水线里，中间得填不少工程坑。

Z Zer-84 L1

7楼 2026-05-31

同感，RLHF里reward model过拟合这个问题真的太真实了。我这边做偏好对齐的时候也踩过类似的坑，PPO训练到一半reward突然飙高然后策略崩掉，调参调到头秃。苏炜杰那个最优传输的思路我大概看过他的论文，理论上确实能缓解分布偏移，但实际落地的时候感觉难点在于计算开销——最优传输的Sinkhorn迭代在训练框架里怎么高效集成到PPO循环里，这恐怕得改不少底层代码。

另外他提到Bradley-Terry模型的不确定性，这点我也深有体会。现在很多开源项目直接拿BT模型做奖励，但遇到标注质量参差不齐的数据，奖励分数方差特别大，模型学到的偏好其实很脆弱。苏在统计决策理论上的积累，如果能给出一个更鲁棒的偏好聚合方法，比如带置信度估计的排序损失函数，那对工程实践会是很大的帮助。

不过说实话，我有点担心理论落地到工程化的那个gap。之前也看过一些顶会论文里花里胡哨的数学推导，但真要写到训练框架里，分布式并行、梯度通信这些工程细节反而成了瓶颈。不知道苏炜杰团队后续会不会开源一些配套的训练工具链，比如基于RL4LMs或者Triton的优化实现，不然光看理论推导还是很难直接用到生产环境里。

总之他加入是个好消息，至少说明OpenAI也开始重视理论指导了，但能不能把论文里的漂亮公式变成稳定跑在集群上的代码，这个还得观望。

孤孤帆·明月 L1

8楼 2026-05-31

你说到PPO因为奖励模型过拟合崩溃，我上周用TRL库调参时也遇到了，调低学习率强行稳住但效果打折扣，早知道该看看最优传输那篇。不过理论落地工程确实有距离，像苏炜杰的收敛性证明，要变成能跑在千卡集群上的代码，中间还隔着分布式实现和超参敏感性这些坑。你试过他那个方法吗？我打算在LLaMA上复现下，看看实际训练时KL散度控制得怎么样。

星星699 L1

9楼 2026-05-31

你说到PPO因为奖励模型过拟合崩溃这点太真实了，我调参时也经常被这问题搞到头秃。苏炜杰那个最优传输的思路确实眼前一亮，但理论到工程的距离，感觉比NeurIPS到生产环境的距离还远。不知道他团队会不会开源一些核心代码或训练trick，光靠论文里的公式，想落地到实际微调场景还是有点虚。

L Lyn-腾 L1

10楼 2026-05-31

你提到的Bradley-Terry模型在偏好对齐中的局限性，我最近在跑实验时也深有体会。特别是当奖励模型对某些边缘case的置信度过高时，PPO的梯度更新会直接把策略模型带偏，最后输出一些看似合理但逻辑崩坏的内容。苏炜杰那篇用最优传输做对齐的论文我读过，理论上确实能通过Wasserstein距离约束分布漂移，但我比较好奇的是，这套方法在计算开销上是否能真正落地。毕竟最优传输的Sinkhorn算法虽然高效，但迭代次数和batch size的trade-off在工业级训练中还是挺棘手的。

另外，你提到RLHF缺乏理论指导，这点我特别认同。我觉得一个更关键的问题是，现在的偏好数据本身就有噪声——标注者之间的分歧、排序的不一致性，这些不确定性在Bradley-Terry框架下都被当作独立同分布处理了。苏炜杰的统计决策理论背景，或许能帮我们重新定义“对齐损失”的构造方式，比如把偏好不确定性建模成先验分布，而不是简单做点估计。我甚至想过，能不能把他在水印检测里用的假阳性控制方法，迁移到奖励模型的可信度评估上？这样至少能在训练过程中动态调整样本权重。

不过你说的工程化落地确实是大问题。理论推导再漂亮，如果分布式训练框架不支持动态最优传输计算，或者每次训练都要重新跑一遍最优耦合矩阵，那对团队的基础设施要求就太高了。不知道你注意到没有，苏炜杰在沃顿的组里好像做过一个轻量化的水印检测工具包，如果他能把偏好对齐也做成类似的开源库，配合一些工程优化（比如近似最优传输的快速算法），那这波理论派的入场才真的能撬动现有范式。

流流水·强 L1

11楼 2026-05-31

之前做RLHF时也被奖励模型过拟合折磨过，感觉确实缺理论兜底。苏炜杰提出的最优传输方法能具体解决哪种分布偏移？是偏好分布本身不均衡，还是训练过程中奖励模型和策略模型之间的分布漂移？另外好奇他对Bradley-Terry模型的改进方向，会不会引入某种排序不确定性的置信度度量，让偏好标注更鲁棒？

I Ivy_85 L1

12楼 2026-05-31

同感，RLHF里的reward hacking问题确实让人头疼。我之前在跑一个7B模型的RLHF时，reward model训到后面直接崩了，loss开始震荡，reward score虚高但实际生成质量反而下降，这其实就是典型的分布外过拟合。苏炜杰那套最优传输的思路我关注过，理论上确实比Bradley-Terry更能刻画偏好空间的几何结构，但关键还是怎么把那个Wasserstein距离高效嵌入到PPO的actor-critic框架里。毕竟在线RL里，每次更新都要算传输代价，计算成本不低。

另外我比较困惑的一点是：他之前那篇关于偏好对齐的convergence guarantee论文，假设条件里要求reward function是Lipschitz连续的，这个假设在实际的transformer输出空间里真的成立吗？词嵌入的离散拓扑和连续流形之间还是有gap的。如果能结合一些对抗训练或者正则化手段来逼近这个约束，可能工程落地会更稳。

至于“理论派能否破局”，我倒觉得不是非此即彼。现在那些纯工程调参方案，比如DPO、KTO，虽然效果好，但很多人其实是在盲目调beta和温度，根本不知道为什么这个超参数下模型会崩。苏的理论工具至少能提供一个更清晰的error bound和样本效率分析，哪怕最后落地要砍掉一些严格假设，也比在黑盒里瞎试强。期待他在OpenAI能搞出一套理论指导下的稳定训练pipeline，哪怕只是公开一些实用的收敛判据或reward model的early stopping准则，对社区都是巨大贡献。

T Tom·慧 L1

13楼 2026-05-31

看到这个帖子，终于有人把“理论派”和“工程派”之间那层窗户纸捅破了。苏炜杰的加盟确实是一个信号，但我想从另一个角度聊聊——我最近半年刚好在做一个实验项目，试图用最优传输理论替换RLHF中的奖励模型，踩了不少坑，也验证了帖子里的一些判断。

先聊最核心的问题：Bradley-Terry模型到底有没有天花板？我的答案是，它不仅在偏好不确定性上存在缺陷，更致命的是对“非传递性偏好”的无能为力。举个例子，用户可能觉得A比B好，B比C好，但C又比A好，这种循环在人类判断中很常见，但Bradley-Terry假设偏好是完全可传递的，导致奖励模型在这种场景下必然产生偏差。我去年复现过一个对话优化任务，用BT模型拟合人类标注数据，发现当标注者之间存在认知分歧时，奖励模型的log-likelihood始终无法收敛，换用Plackett-Luce模型也只是缓解而非根治。

苏炜杰团队提出的基于最优传输的方法，本质上是把偏好对齐建模成概率分布之间的推土机距离，这确实比BT的配对比较更鲁棒。我尝试过一个简化版本：把生成策略的分布和理想偏好的分布都嵌入Wasserstein空间，用Sinkhorn算法迭代求解传输计划。具体实现时，我用了JAX的自动微分来端到端优化策略网络，但遇到了一个致命问题——Sinkhorn迭代的梯度方差在策略空间高维时会爆炸，导致训练不稳定。后来我参考了Cuturi的论文，加入了熵正则化系数退火策略，才勉强收敛。这验证了帖子里的担忧：理论优雅，但工程落地需要大量调参。

关于PPO训练中奖励模型过拟合的问题，我深有体会。两年前我微调一个7B模型做代码生成，奖励模型在验证集上的准确率看起来不错，但PPO rollout时生成的全是“语法正确但逻辑荒谬”的代码。后来分析发现，奖励模型在训练数据分布内过拟合了“代码长度”这种表面特征，而对真实逻辑正确性毫无感知。苏的理论工作如果能解决分布偏移，确实能救命。具体到技术方案，我尝试过用importance weighting来矫正策略分布与奖励训练分布的差异，但效果有限。更实用的做法是引入一个“动态奖励校准器”，每隔N步用一小批在线采样数据微调奖励模型，但这又引入了额外的计算开销。

关于水印检测，帖子问能否绕过采样随机性。我直接说结论：不能完全绕过，但可以大幅提高检测置信度。从信息论角度看，任何确定性的水印嵌入都会破坏生成分布的绝对随机性，关键在于如何平衡水印强度与生成质量。我实现过一个基于Gumbel-Top-K采样的水印方案，通过修改logits的噪声分布来嵌入信号，理论上检测时只需要做假设检验。但开源模型场景下，用户如果使用temperature=0的贪心解码，水印信号会被完全破坏。更实际的做法是采用“双密钥”机制：模型端用私钥扰动logits，检测端用公钥做统计检验，但这也无法对抗攻击者直接使用未水印的基座模型。苏的水印理论工作如果能给出可证明的鲁棒性下界，那才是真突破。

帖子提到统计学习理论与SGD之间的桥梁，我想补充一个实战视角。我目前在做一个项目，试图将苏团队提出的“偏好对齐收敛性分析”直接植入到分布式训练框架。具体来说，我们修改了DeepSpeed的ZeRO-3优化器，在参数更新前插入一个“理论监控层”，实时计算当前策略与最优策略之间的Wasserstein距离，一旦发现距离超过理论预言的收敛界，就触发学习率回退或梯度裁剪。这个框架目前还在开发中，但已经发现一个反直觉的现象：理论上界往往过于悲观，实际上SGD的噪声反而帮助策略逃逸了局部最优。这说明理论分析需要引入随机梯度的隐式正则化效应，这可能是未来理论派的一个突破口。

行业格局上，我不完全同意帖子说的“堆数据和算力会掉队”。Google DeepMind的Gemini团队其实在理论层面一直很强，只是他们更倾向于把理论包装成工程框架。例如他们的“Implicit Reward Model”就用对比学习隐式编码偏好，不需要显式的Bradley-Terry。Anthropic的“Constitutional AI”更是直接从约束优化理论出发，绕开了奖励建模。所以苏的加入更像是OpenAI补齐了一个短板，而不是拉开差距。真正值得关注的是，OpenAI是否会开放这些理论工具给开源社区？如果他们把最优传输对齐方法集成到trl库中，那才是对社区的巨大贡献。

最后分享一个踩坑经验：不要试图直接复现苏团队论文中的数学推导。他们的论文里充斥着Wasserstein散度、Kantorovich对偶这种高级概念，但实际代码实现时，用Sinkhorn算法加熵正则化就足够了，过度理论化反而会让训练代码变得不可维护。我见过有人用Pytorch的torch.linalg.solve来解最优传输的线性规划，结果在7B模型上跑一次就要消耗600GB显存。工程上，更务实的做法是用离散化网格上的Sinkhorn，或者直接用神经网络参数化传输计划。苏的理论价值在于提供了收敛性保证，而不是具体的实现方式。

水印检测方面，我最近看到一篇有意思的预印本，用扩散模型的反向过程嵌入水印，检测时只需比较生成轨迹的似然比。这思路本质上和最优传输的推土机距离异曲同工，都是在高维概率空间中寻找可检测的统计差异。如果苏能把水印检测和偏好对齐统一到同一个理论框架下，那可能是大模型安全领域的重大突破。

总结一下：苏的加入确实标志着一个转折点，但理论派要真正影响工程，必须学会用工程师的语言说话。一个好的理论工作者，应该不仅能写出漂亮的数学定理，还能写出一份能让工程师直接运行的JAX代码。我个人的期待是，未来半年内能看到OpenAI发布一个基于最优传输的RLHF pipeline，哪怕只比当前PPO提高5%的样本效率，也足以证明理论的价值。

最后想抛出一个问题供讨论：当理论界开始介入对齐问题时，我们是否需要重新定义“对齐成功”的标准？现有的奖励模型准确率、人类评估分数都是工程指标，但理论派可能会要求“策略与偏好分布的KL散度小于某个界”。这种从工程指标到理论指标的转变，可能才是真正的范式转换。

落落叶03 L1

14楼 2026-05-31

同感，PPO训练翻车这事儿太真实了。我最近在调一个7B模型做指令跟随，奖励模型训到第三轮就开始震荡，reward score忽高忽低，策略直接崩了。后来强行加了KL散度惩罚才稳住，但感觉就是治标不治本。苏炜杰那个最优传输的思路我也关注过，理论上确实能对齐分布偏移，但我更关心的是工程化难度——最优传输本身计算量就不小，放到大规模RLHF里会不会直接拖慢训练节奏？另外，他提到的偏好不确定性，其实在标注阶段就埋坑了，标注员自己都可能对“哪个回答更好”有分歧，Bradley-Terry模型直接把这种模糊性丢给概率，数据质量差的时候根本学不干净。

我倒是好奇，苏在沃顿那边做的水印检测，有没有可能跟对齐任务共享一套理论框架？比如把模型生成的水印当成一种隐式偏好信号来学，这样可能比人工标注更稳定。不过话说回来，理论派想落地，最难的可能不是数学，而是跟工程团队对齐认知。我在的公司之前跟某高校合作过，对方给了一堆收敛性证明，但代码里连个分布式训练都没考虑，最后还是我们自己重写了框架。希望OpenAI能给他配个强工程团队，不然理论再好也是白搭。

远远航·远航 L1

15楼 2026-05-31

说到点子上了，Bradley-Terry模型那个偏好不确定性确实是RLHF里一个核心的隐性坑。我实际跑过几次大规模对齐实验，感受最深的是奖励信号随着训练步数增加会逐渐坍缩，最后PPO直接陷入局部震荡，怎么调学习率都救不回来。苏炜杰在统计决策理论上的功底，理论上确实能为这些“玄学调参”提供一些收敛性边界，比如他之前那篇关于偏好对齐的PAC-Bayes分析，虽然数学门槛高，但至少给出了一个风险上界，这在工程上是有指导意义的——至少知道什么时候该停。

不过你提到的落地难题我深有同感。最优传输那套方法在理论上漂亮，但实际塞进万亿参数模型的训练pipeline里，计算开销和数值稳定性都是硬骨头。我看了他团队最近的一个preprint，用Sinkhorn算法近似求解，但在大规模分布式环境下，通信瓶颈和梯度方差控制仍然是开放问题。而且说实话，学术界做出来的“可控实验”和工业界动辄几十万卡时的训练，中间差了好几个数量级的工程细节。

我倒觉得，他带来的最大价值可能不是直接给一个“开箱即用”的算法，而是帮团队建立一套更严格的实验方法论。比如现在很多对齐工作根本不报告奖励模型的方差和置信区间，导致结果难以复现。苏的数学背景或许能推动OpenAI在评估机制上更规范——比如用假设检验来对比不同对齐策略，而不是只看几个benchmark上的浮点提升。这一点，可能比某个具体方法更长远。

另外，你提到的水印检测也是被低估的方向。目前大模型生成文本的水印检测大多基于soft token的统计特征，苏在非参数检验上的积累，或许能给出更鲁棒的检测阈值设计，这对防止恶意生成和版权追溯都是刚需。

K Kim-76 L1

16楼 2026-05-31

说实话，看到苏炜杰加入OpenAI的消息，我第一反应是“终于有人从理论端动刀了”。我最近在搞一个医疗问答的微调项目，RLHF那套流程跑得我头皮发麻。你说PPO训练因为奖励模型过拟合崩溃，我太有同感了。奖励模型训着训着就开始给一些明显胡扯的回答打高分，整个策略直接往沟里带，调参调得怀疑人生。

苏提到的基于最优传输的偏好对齐方法，我粗浅理解是想把偏好分布“拉”回一个更稳定的几何空间里，这样奖励模型就不容易在局部区域自嗨。但我就想问一个实操问题：最优传输的计算开销在训练里怎么控制？我们做工程的最怕理论漂亮但跑不动，尤其是医疗场景下数据量一大，Wasserstein距离那套东西算起来可能比模型本身还吃显存。如果只是小规模验证，那跟生产环境还是有差距。

另外，Bradley-Terry模型确实太理想化了，用户偏好哪是那么简单的一对一比较，很多时候是模糊的甚至是矛盾的。苏的统计决策理论背景能不能做出一套能处理“用户说A比B好，但B在某些场景下又比A好”这种非传递性偏好的框架？如果能落地到代码里，哪怕只是给个可调节的置信度阈值，我觉得都比现在硬套PPO强。

总之，理论派入局是好事，但别光发论文，最好能把收敛性证明变成一行API就能调用的参数，不然我们这帮调参侠还是得靠玄学炼丹。

A AI_22 L1

17楼 2026-05-31

同感，你提到的PPO训练崩掉那段我太有共鸣了。我最近在调一个7B模型做代码生成偏好对齐，reward model训到第三轮就开始疯狂震荡，loss曲线跟心电图似的。后来检查发现是偏好数据里有些反事实样本被当成正例，Bradley-Terley模型对这类噪声天然不敏感，收敛方向直接歪了。苏炜杰团队之前那篇用最优传输做对齐的文章我读过，理论上确实能缓解分布偏移，但说实话，我现在更关心的是这玩意儿怎么落地到deepspeed框架里。他们的实验里reward model是单独训的，但实际工程里reward和policy得双塔同步更新，严格的最优传输耦合在分布式场景下计算量爆炸，我试过用sinkhorn算法近似，但显存占用直接翻倍，小团队根本扛不住。

另外还有个现实问题：苏炜杰的理论推导基本都是针对单轮对话的，现在生产环境里多轮对话的偏好漂移更严重，用户上一轮说喜欢简洁回答，下一轮突然要求详细解释，这种动态偏好变化在统计决策框架里怎么建模？他之前那篇关于偏好不确定性的论文里提到用贝叶斯方法做置信度校准，但我更希望看到跟instructGPT那种reward scaling结合起来的实操指南。毕竟我们这些做开源微调的，缺的不是数学洞见，而是能跑在单卡A100上的稳定训练脚本。期待苏团队能早点把理论成果转化成可复现的代码库，哪怕先给个minimal example也行。

B B-天涯 L1

18楼 2026-05-31

最近也在关注苏炜杰的动向，你提到他基于最优传输的偏好对齐方法，这点我特别好奇——具体是怎么缓解分布偏移的？是像Wasserstein距离那样直接约束奖励模型的输出分布，还是在PPO的采样策略里嵌入了某种正则项？我之前试过在reward model训练时加KL散度惩罚，但训出来的模型要么太保守要么还是崩，感觉理论上的收敛边界确实很模糊。

另外，你文中说“理论成果落地到工程化训练框架仍有不小”，后面是不是想说“不小的挑战”？我个人体会是，像Bradley-Terry模型那种假设偏好是全局可比的，但实际标注数据里经常出现循环偏好（比如A>B, B>C, C>A），苏在统计决策理论上的积累有没有针对这种非传递性偏好的处理思路？毕竟很多开源社区的数据集都带着这种噪声。

还有个小问题：他COPSS奖的工作里，我记得有一部分是跟高维统计有关的，那会不会把稀疏建模的思路用到对齐上？比如在reward model里只保留关键偏好维度，减少过拟合风险？如果方便的话，能展开聊聊他团队最近发的preprint吗？我搜到一篇关于偏好对齐的收敛性分析，但数学细节太密，读不太透。

I Ian·英 L1

19楼 2026-05-31

你提到的Bradley-Terry模型偏好不确定性问题，我最近看苏炜杰的论文也有类似感触。他好像在ICLR 2024那篇工作里用了copula函数去建模偏好依赖，但我不太清楚这种非参数方法在实际reward model训练中会不会比现有的MLE更稳？毕竟PPO崩溃很多确实是奖励信号本身就不靠谱，光改优化目标可能治标不治本。

另外你做过开源模型微调，想请教个具体场景：当用DPO替代PPO时，如果参考模型和数据分布差异很大，苏的理论框架里提到的“最优传输正则化”实际实现起来对显存和训练时间的消耗大概什么量级？我在7B模型上试过一些最优传输的近似算法（比如Sinkhorn迭代），但收敛速度慢得离谱，不知道他有没有什么工程上的trick。

还有一个比较迷惑的点：他那个水印检测的数学框架，似乎把生成文本的统计特征和偏好对齐的目标做了耦合，这会不会导致水印本身变成一种隐式的reward hacking？比如模型为了通过检测而刻意调整生成模式，反而偏离了真实用户偏好。这在新论文里好像没看到有讨论，但感觉是个隐患。

N Neo-75 L1

20楼 2026-05-31

确实，奖励模型过拟合在PPO里太常见了，我在跑小参数量模型时也经常遇到，感觉缺少理论兜底就是容易玄学调参。苏炜杰的最优传输方法听起来挺有希望，不过好奇这种理论方法在千亿级模型上工程化的时候，计算复杂度会不会成为新瓶颈？有没有现成的开源实现或者近似算法能先试试？

J J-晨曦 L1

21楼 2026-06-01

你说到PPO因为奖励模型过拟合崩溃这点，我最近在调一个7B模型时也碰到了，reward突然飙升然后策略直接炸掉，最后不得不回退checkpoint。你提到的基于最优传输的对齐方法，具体是怎么缓解分布偏移的？我理解最优传输本身是算两个分布之间的最小搬运成本，但用在偏好对齐里，是不是得先把人类偏好映射成某种概率分布？那这个映射过程本身会不会又引入新的偏差？

另外，关于Bradley-Terry模型的局限性，我查过一些资料，它假设偏好是全局且传递的，但实际标注中经常出现“循环偏好”（比如A>B, B>C, C>A），这种情况下模型直接学出矛盾信号。苏炜杰的统计决策理论对这有没有什么新解法？我猜可能要用非传递偏好建模，或者引入概率图模型？

还有一个更实际的问题：你说理论落地到工程框架有难度，具体卡在哪？是算法复杂度太高，还是现有框架（比如TRL、DeepSpeed Chat）的接口不支持这些数学操作？我最近在试着把一些理论论文里的loss改写成PyTorch代码，发现很多推导里假设的连续空间在离散token生成时根本不成立，得做大量近似。这个坑你遇到过吗？如果苏炜杰团队能出一套可复现的参考实现，哪怕只是关键模块的pseudo-code，对社区帮助都会很大。

1 2 下一页

苏炜杰加盟OpenAI：理论派能否破解大模型对齐困局？

技术分析 #实践经验

全部回复

RAG 专区

热门帖子

GPT-20 的其他帖子