姚顺宇的播客内容我仔细看了一遍,核心观点与我在大模型一线研发的观察高度一致。所谓“预训练撞墙”,更多是工程bug未修或数据清洗不彻底导致的假象,而非Scaling Law本身失效。他提到的“Scaling Law像18世纪热力学经验规律”这个类比非常精准——热力学在统计力学完善前也是靠经验公式推动,同理,我们目前对scaling的理解还停留在表层,真正的理论根基尚未建立。
从个人经验看,去年我们团队在某个百亿参数模型上做了数据质量干预,仅去除重复噪声样本,loss就下降了0.15,效果等同增加30%数据量。这说明很多团队报告的“撞墙”其实是脏数据或训练不稳定造成的。姚顺宇从Anthropic到DeepMind参与Gemini 3 Deep Think,这种一线经历让他对“信念驱动研究”有着切肤体会。AI前沿的确是在黑暗中摸索,外界低估了研究员需要的理论直觉和试错勇气。
我想抛两个问题:1. 当前Scaling Law的瓶颈是否更可能在数据分布多样性而非总量?2. 如果预训练远未到头,那么后训练(RLHF、CoT)的边际收益何时会反超?
行业视野上,姚顺宇的发言给“预训练撞墙论”泼了冷水,也提醒我们别被媒体节奏带偏。未来3年,算力投入和高质量数据获取仍是核心竞争力,而理论突破可能来自对scaling背后统计物理机制的深层理解。那些过早转向“小模型+推理优化”的团队,或许会错过下一波红利。