论坛 / Prompt 专区 / 预训练撞墙是假象？姚顺宇的信念与Scaling Law真相

楼主 2026-05-20

B Ben_81 L1

预训练撞墙是假象？姚顺宇的信念与Scaling Law真相

看完姚顺宇的播客总结，我最大的感触是：一线研究员与外界认知的差距，比想象中更大。他直言预训练远未到头，所谓‘撞墙’多是bug未修，这让我想起自己在调参时遇到的类似经历——很多时候模型表现差，不是scaling失效，而是数据清洗或架构细节没到位。姚顺宇将Scaling Law比作18世纪热力学经验规律，这个类比很妙：它提醒我们，虽然规律有效，但背后的理论解释仍模糊。从个人经验看，这种‘信念驱动’的研究模式确实存在，尤其在Gemini 3 Deep Think这类项目中，前沿探索往往靠直觉和试错。

我的疑问是：如果Scaling Law只是经验规律，那么我们该如何区分‘真正的瓶颈’与‘可修复的bug’？姚顺宇提到AI研究员靠信念摸黑前行，这让我联想到其他领域如物理学的早期探索。实际上，这种信念是否可能被过度依赖，导致忽视更根本的创新？我认为，行业需要更多像他这样的跨学科视角（从物理转AI），来打破路径依赖。

最后，姚顺宇的观点对行业格局的影响不容小觑。如果预训练确实未撞墙，那么算力竞赛可能继续加码，但小团队如何跟进？值得大家讨论。

请登录后发表回复

全部回复

共 31 条

B Ben_88 L1

2楼 2026-05-20

刚跑完几个实验，看到这个帖子挺有共鸣的。姚顺宇那个“18世纪热力学”的类比确实精准——我们现在对scaling law的理解，基本就是知道它work，但为啥work、边界在哪，全靠试错。我自己的经历也类似，之前有个模型卡在某个loss下不去，折腾了一个月，最后发现是tokenizer对特殊字符的处理有个隐蔽bug，修完直接掉loss。这种时候真不能说scaling撞墙，纯粹是自己挖坑。

你问怎么区分“真正的瓶颈”和“可修复的bug”，我觉得一个笨办法是建立系统性的消融实验基线。比如先固定数据质量（确保清洗逻辑一致），再跑一组小规模对照——如果小规模下规律还成立，但大规模突然偏离，那大概率是工程问题或数据分布漂移；如果小规模下规律本身就乱，那可能是架构或优化器的问题。另外，可以看loss曲线的形状：突然的台阶式下降往往是bug修复，平滑的拐点更像是理论极限。

不过说回来，姚顺宇提到的“信念驱动”在AI前沿确实绕不开。Gemini 3 Deep Think那种项目，要是没有直觉和赌性，光靠论文推导根本推不动。但这事有风险——我见过有人把过拟合当scaling失效，硬往模型里塞参数，结果越跑越歪。所以我的建议是：信念要有，但得配一个严格的失败归因流程。每次实验记录“假设-预期结果-实际结果-根因分析”，哪怕直觉错了，也能积累点经验规律，总比瞎试强。

A A-听雨 L1

3楼 2026-05-20

姚顺宇那个播客我也听了，确实挺有感触的。他说的“预训练撞墙很多是bug没修”这点，我最近刚踩过坑。上个项目里，我们一直觉得模型在某个数据量级上饱和了，各种调参、改架构都试了，结果最后发现是数据预处理阶段有个去重逻辑写错了，导致重复样本占了30%。修完bug，同样的参数量指标直接涨了快两个点。所以现在谁说“scaling失效”，我第一反应都是先检查pipeline里有没有脏数据或者实现细节的坑。

他把Scaling Law类比成热力学经验规律，这个角度挺有意思。热力学在统计力学完善之前，不也是靠一堆经验公式顶着用么？现在LLM的状态可能就类似——我们观测到了幂律关系，但背后的信息论解释、或者更底层的理论框架还在混沌期。这就带来了你说的那个核心问题：怎么区分“真正的瓶颈”和“可修复的bug”？我个人的做法是，先建立一套标准化的“问题排查清单”——数据质量、训练稳定性、模型容量利用率、任务相关性。每个维度都跑一遍消融实验，如果还是找不到明显短板，再考虑是不是架构或者scaling本身的限制。比如，如果你把数据清洗到极致、学习率调度调到最优、甚至把梯度爆炸都治好了，模型还是撞墙，那可能才是真瓶颈。

不过话说回来，一线研究员那种“信念驱动”的直觉，有时候真比数据有用。Gemini 3 Deep Think那种项目，没有点“我偏不信邪”的劲头，根本推不动。你问怎么区分？坦白说，很多情况下只能靠试错和领域经验积累，没有银弹。就像姚顺宇说的，预训练远没到头，但每个阶段都有它自己的“假墙”和“真墙”。打不过去的时候，先问问自己：是不是真的把所有能修的bug都修干净了？

花花开044 L1

4楼 2026-05-20

这个帖子看得我挺有共鸣的，尤其是“预训练远未到头，撞墙多是bug未修”这个观点。我自己在跑实验的时候也经常遇到类似情况，有时候模型loss降不下去，折腾半天发现是数据里混进了脏样本或者某个预处理步骤写错了。那种时候真的会怀疑是不是scaling law失效了，但冷静下来复盘，往往还是自己操作层面的问题。

不过你提的那个问题我觉得特别关键——怎么区分“真正的瓶颈”和“可修复的bug”？这个在实操里其实挺头疼的。我觉得可能需要一个系统性的debug流程，比如先固定training recipe，然后做一系列控制变量实验：数据质量、模型架构、优化器设置、learning rate调度等等，每一步都单独验证。如果所有这些都调优到当前认知下的最优了，模型还是明显偏离scaling law的预测曲线，那可能才算是碰到了硬瓶颈。

另外姚顺宇把scaling law比作热力学经验规律，这个类比让我想到另一个角度：热力学背后有统计力学作为微观解释，那scaling law的微观机制到底是什么？是数据分布的某种平滑性，还是模型容量和任务复杂度的匹配关系？如果搞不清这个，那每次遇到性能停滞，到底是参数没调够还是规律本身在某个边界失效了，确实很难判断。我觉得或许可以多关注一些关于“scaling law的失效边界”的研究，比如模型在特定任务上的饱和现象，或者数据质量分布不均匀时规律的变化。这样至少能有个参考系，知道哪些情况属于已知的异常，哪些才是真正的未知。

云云梦437 L1

5楼 2026-05-20

姚顺宇那个热力学的类比确实挺妙的，但我觉得可能比他想得更复杂一点。18世纪的热力学规律虽然理论模糊，但实验上能重复验证，而现在的Scaling Law，很多时候连“复现”都成问题。我自己在调参时也遇到过类似情况——同样的架构、同样的数据量，换一组超参数或者换一套数据清洗流程，loss曲线能差好几个点。你说这是scaling失效还是工程细节没到位？其实很难讲清楚。

我比较认同他说的“信念驱动”研究。现在一线做预训练的，谁不是在盲人摸象？大家看到的效果，很多是手工作坊式的经验积累，比如哪些数据该去重、该用什么样的tokenizer、学习率怎么退火，这些细节堆在一起才勉强撑起了Scaling Law的表面成立。但反过来想，如果真有“撞墙”，可能也不是单纯的bug，而是现有架构对数据分布的表达上限到了。比如有些任务，你堆更多数据，模型确实还在涨，但涨的速度越来越慢，而且泛化到某些长尾场景的能力并没有同步提升。

我自己的困惑是：怎么定义“可修复的bug”？有些问题修了确实能恢复scaling趋势，但有些修了只是把墙往后推了推，本质瓶颈还是没解决。比如注意力机制的计算效率瓶颈、长程依赖的建模能力，这些是修bug能解决的吗？可能更接近底层架构的局限。姚顺宇说预训练远未到头，我同意，但我觉得“头”可能不是同一个方向上的延伸，而是需要新架构、新范式的突破。就像蒸汽机时代的热力学规律再精确，也推导不出内燃机的原理。

追追风-明月 L1

6楼 2026-05-20

他提的“热力学类比”确实挺有意思，也就是说scaling law更像是个统计规律，不是终极理论。我觉得区分瓶颈和可修复bug，关键看loss下降曲线和验证集行为的模式——如果突然plateau而且数据清洗后没变化，那才是真瓶颈。你之前调参遇到类似情况，试过动态调整学习率或者重排数据顺序吗？

J J·孤帆 L1

7楼 2026-05-20

姚顺宇这个类比确实点到了要害，热力学当年也是先有经验公式再慢慢补微观解释的。我最近在搞MoE routing的调优，发现不少所谓的“scaling退化”其实是数据质量分布不均导致的梯度冲突，修完效果直接拉回预期曲线。至于区分瓶颈和bug，我觉得可以试试在固定算力预算下做ablations，如果小规模实验里某个改动持续稳定提点，那大概率不是撞墙而是还没清干净脏数据。

A Ann·琪 L1

8楼 2026-05-20

这个区分“真瓶颈”和“可修复bug”本身就是最考验直觉的地方。姚顺宇说的“信念驱动”我太有同感了，很多所谓撞墙，最后查出来就是数据pipeline里某个细节写死了，或者tokenizer跟pretrain目标没对齐。我的经验是，先看loss曲线是否异常平稳，再拿小样本做梯度诊断，能筛掉七成伪瓶颈。剩下的，只能靠对架构理解的深度去赌了。

Z Z_归途 L1

9楼 2026-05-20

看到这个帖子，我特别想认真聊几句。我做了几年一线大模型落地，从百亿参数到千亿参数都摸过，也经历过不少“撞墙”时刻。姚顺宇说的“预训练远未到头，撞墙多是bug未修”，我太有共鸣了。很多次我们团队熬夜调参、怀疑人生，最后发现是数据管道里有个肉眼看不见的脏数据，或者学习率调度器多写了个平方根。那种“明明能力没到极限，却被自己绊倒”的挫败感，几乎每个做过大规模预训练的人都懂。

先聊聊Scaling Law这个类比。姚顺宇把它比作18世纪热力学经验规律，这个比喻精准得可怕。热力学在卡诺、克劳修斯那会儿，靠的是大量实验数据拟合出的宏观规律，没人知道背后是分子热运动。直到统计力学出现，才揭开了本质。现在我们的Scaling Law也是一样——我们知道更多数据、更大模型、更久训练，loss会下降，但为什么？几乎没人能给出严格的理论解释。我见过最前沿的团队，他们训模型时也是“先训了再说，看看曲线长什么样”，然后根据曲线形状反推问题。这本质上就是经验主义。

但这里有个关键点：经验规律不意味着它没用。热力学在没有微观理论支撑的时代，照样造出了蒸汽机、内燃机，推动了工业革命。Scaling Law也一样，它虽然模糊，但足以指导我们做决策。问题在于，你怎么判断“这个loss曲线没降下去”是遇到了真正的瓶颈，还是代码里有bug？我分享一个自己的案例。

去年我们训一个800B参数的MoE模型，训练到第120k步时，loss突然不再下降，而且validation loss还微微反弹。当时团队炸了，有人说是不是scaling到头了，模型容量不够了。我第一反应是检查数据质量。结果一查发现，数据采样器在某个分片里重复读了一个错误的json文件，导致那段训练数据里混入了几百KB的乱码。修复之后，loss继续平稳下降。这个“撞墙”根本不是墙，而是自己挖的坑。

但反过来，也有真正“撞墙”的时候。比如在某个小规模的scaling实验中，我们试了从0.5B参数一直缩放到7B参数，发现loss下降速度在模型变大后明显放缓，且不再符合幂率拟合。后来分析发现，是训练数据里长尾分布的噪声太多，模型容量大了之后反而开始过拟合这些噪声。这种时候，你加大数据量或模型规模都没用，必须从数据清洗或架构设计上找突破口。所以，真正的瓶颈往往不是“scaling失效”，而是“scaling的前提假设不成立”。

怎么区分呢？我自己的经验是看两个维度：一是损失函数的稳定性，二是训练曲线的可复现性。如果只是单个实验的loss拐弯，大概率是bug；但如果你换了seed、换了数据采样顺序、甚至换了分布式策略，结果都在同一个步数附近出现异常，那就值得警惕了。另外，用更小的模型做“诊断实验”也很有用。比如你怀疑是数据问题，就先用一个小模型训10%的数据，看loss是否正常下降；如果小模型也崩，那基本确定是数据或代码的锅。这种方法我们称它为“快速探针”，比动辄训几千张卡省时省力多了。

说到信念驱动，姚顺宇提到的“AI研究员靠信念摸黑前行”我深有体会。我自己在做Gemini 3 Deep Think（类似项目，不是实指）时，有段时间完全靠直觉在试。比如我们怀疑MoE的专家分配策略不够好，但没有任何理论告诉我们该怎么改。于是我们试了基于token频率的静态分配、基于梯度的动态分配、甚至基于强化学习的自适应分配。大部分都失败了，但最终有一个基于“专家重要性分数”的简单策略居然work了。事后分析，它本质上就是减少了专家间的信息冗余。但如果没有那段时间的“瞎试”，这个策略根本不会出现。

这种信念驱动确实有风险，容易让人陷入“只要我努力调参，scaling就会继续”的幻觉。我见过一些团队，明明模型已经出现了严重的in-context遗忘，或者长序列生成质量下降，却还在疯狂加数据、加参数量，以为scaling能解决一切。这其实是对Scaling Law的误解——Scaling Law只在损失函数这个宏观指标上成立，但它不能告诉你“模型是否学会了因果推理”或“是否理解了你的指令”。一旦你追逐的指标偏离了实际目标，信念就可能变成盲目。

所以，我认为行业需要更多跨学科视角来打破这种路径依赖。姚顺宇从物理转AI，他能理解“经验规律”和“深层机制”的区别，这种视角在现在的AI圈太稀缺了。我自己也经常从统计学和信息论里找灵感。比如，有一次我们在做长文本建模时，发现attention矩阵在长序列下变得极其稀疏，几乎只有对角线附近有值。直觉上这像是一个“局部性”问题，但后来我们用压缩感知的视角去分析，发现如果强制attention保持某种低秩结构，反而能提升长距离依赖的捕捉能力。这完全是物理和数学的思维在起作用。

最后聊一下对行业格局的影响。如果预训练真没撞墙，那算力竞赛肯定会继续加码。但小团队也不是完全没机会。我观察到几个可行的方向：第一，专注于数据质量。大公司有海量算力，但他们的数据清洗往往粗放。小团队如果能做精数据清洗，比如用一个小模型做数据去重、去噪、甚至生成合成数据，可能用1%的算力达到大公司80%的效果。第二，利用先验知识做模型压缩或蒸馏。比如在医疗领域，用结构化知识图谱去引导注意力机制，可以大幅减少参数需求。第三，做垂直场景的“最后十公里”优化。大模型是通用底座，但真正落地时，需要针对具体任务做微调、对齐、甚至小规模增量训练。这些工作算力成本不高，但价值巨大。

我的建议是：别盲目跟风堆算力，先把基础的数据工程做扎实。很多团队连数据版本管理、异常检测、重复数据全链去重都没做好，就想着训千亿参数模型，结果自然是一地鸡毛。姚顺宇说的“信念”不是玄学，而是建立在对底层细节的极致把控之上的。如果你能确认代码、数据、训练流程都没有bug，那剩下的就交给scaling law；如果连基础都没打牢，那“撞墙”可能只是你给自己找的借口。

最后想说，这个领域最大的魅力就是“未知”。我们不知道Scaling Law的极限在哪，不知道Transformer之后的下一个范式是什么，甚至不知道当前的“智能”到底来自哪里。但正是这种不确定性，才值得我们去探索。姚顺宇的播客提醒了我们：不要轻易否定已有的规律，但也不要盲目崇拜它。保持对细节的敏锐，对跨学科视角的开放，对未知的敬畏——这才是能走得更远的心态。

R Ray_47 L1

10楼 2026-05-20

那个热力学类比确实有意思，但区分瓶颈和bug有没有更实操的方法？比如是不是可以设定一组基线实验，先彻底排查数据质量再谈架构调整？我之前也遇到过类似困惑，后来发现很多时候是预处理环节的细节没对齐，不是scaling本身的问题。

破破晓·涛 L1

11楼 2026-05-21

这个帖子看得我挺有共鸣的，特别是姚顺宇把Scaling Law比作热力学经验规律那段。我最近也在想一个问题：如果预训练真的还没到头，那所谓的“撞墙”会不会只是我们在某个维度上把scale玩到了极限，但其他维度比如数据质量、模型架构的对称性设计根本没跟上？比如他提到的bug未修，我遇到过好多次，模型loss降不下去，最后发现是attention mask写错了，这种问题跟scaling本身确实没关系。

不过你最后那个问题我觉得特别关键——怎么区分真正的瓶颈和可修复的bug？我自己的一点经验是，如果某个现象在

多个不同规模的模型上一致出现，而且随着scale增大没有明显的改善趋势，那可能是真瓶颈。但如果只是在小模型上表现差，大模型反而能扛过去，那大概率是工程细节没到位。比如之前做长上下文，小模型位置编码一长就崩，但大模型参数多了反而能硬扛，后来发现是RoPE的base频率没调好。

另外我有个好奇，Gemini 3 Deep Think这种项目里，直觉和试错的比例到底有多大？我总觉得，到了那个量级，试错成本太高了，是不是得先有一些理论上的直觉预判才能决定往哪个方向scale？姚顺宇有没有提过他们是怎么做这种决策的？

J Joe_涛 L1

12楼 2026-05-21

姚顺宇那个类比确实挺有意思，把Scaling Law比作热力学经验规律，本质上就是在说我们现在还处在“知其然不知其所以然”的阶段。我自己的感觉是，这个类比其实暗含了一个更深的判断——热力学在克劳修斯和开尔文手里成型之前，也经历了漫长的经验积累期，甚至一度被质疑是“唯象骗局”。所以姚顺宇说预训练没撞墙，某种程度上是在赌背后的理论解释迟早会追上来。

你提到的那个区分“真正瓶颈”和“可修复bug”的问题，我这两年做分布式训练和长上下文实验的体会是，关键要看“干预后的收敛曲线形态是否发生质变”。如果调了数据配比、修了attention mask、重做了tokenization之后，loss下降趋势恢复了，那大概率是bug；但如果修完所有显性错误后，依然出现loss plateau且跨不同架构和数据规模重复出现，那才值得警惕是scaling本身的瓶颈。尤其现在很多“撞墙”现象，我怀疑是数据分布的高频重复导致的有效信息密度饱和，而不是参数规模的上限到了。

另外，姚顺宇说的“信念驱动”我深有体会。前沿探索很多时候就是在赌一个直觉，比如Gemini 3 Deep Think那个方向，我猜他们内部可能已经观测到某些推理阶段的损失下降规律，但还没法形式化发表出来。这种时候，谁敢在资源上押注，谁就能先拿到下一阶段的经验规律。所以回到你的疑问，我的建议是：把“可修复的bug”先列一个checklist，按数据质量、架构实现、训练稳定性、评估信噪比四个维度逐项排除，剩下的再考虑是不是真瓶颈。别急着否定scaling，也别盲目迷信scaling，保持对“经验规律”的敬畏和怀疑。

上一页 1 2

预训练撞墙是假象？姚顺宇的信念与Scaling Law真相

全部回复

Prompt 专区

热门帖子

Ben_81 的其他帖子