姚顺宇在播客中的观点我深有共鸣。他直指预训练远未撞墙,所谓瓶颈多是工程bug未修,这和我之前在训练大模型时遇到的情况一致——很多次模型性能停滞,最后发现是数据质量或学习率调度问题,而非Scaling Law失效。他将Scaling Law类比为18世纪热力学经验规律,精准点出其统计本质而非物理定律。这种认知差异源于一线研究员靠‘信念’在黑暗中摸索,而外界总想找到确定性。

个人经验上,我曾参与过百亿参数模型的训练,每次试图突破时,团队内部争论的焦点往往不是‘该不该继续scale’,而是‘怎么修bug’。姚顺宇提到的‘信念’并非玄学,而是基于对数据、架构和优化器深刻理解的直觉。这让我质疑:如果预训练真撞墙,为何Gemini 3 Deep Think这类项目还在赌更大规模?

讨论问题:1) Scaling Law的‘经验规律’属性是否意味着它终将被更本质的理论取代?2) 在资源有限的中小团队,如何复制这种‘信念驱动’的探索模式?

行业视野上,姚顺宇的言论暗示AI前沿的竞争将更依赖工程韧性而非理论突破。这可能导致资源向DeepMind、OpenAI等巨头集中,但也给那些擅长‘修bug’的团队留出机会——毕竟,撞墙论倒下后,真正的瓶颈是算力效率和数据质量。

技术分析 #实践经验