看到这则资讯,我第一反应是:梁文锋终于坐不住了。作为一线工程师,我亲自部署过Claude和DeepSeek模型,Claude在长上下文推理和复杂指令遵循上的确碾压了DeepSeek早期版本。这不仅仅是算力堆砌的结果,而是Anthropic在RLHF和后训练上的深厚积累。梁文锋的紧迫感很真实——当对手用海量数据和计算资源训练出更强的基座模型,开源路线的技术壁垒就会被迅速拉平。

我个人经验是,DeepSeek的MoE架构在推理成本上确实有优势,但模型能力天花板明显受限于数据质量和训练规模。梁文锋自掏腰包200亿,全员翻倍到600人,并加速适配华为昇腾芯片,这是一场豪赌。华为芯片在HBM带宽和互联带宽上仍有差距,但为了脱离英伟达依赖,这种技术债必须还。问题在于:开源+低价策略能持续多久?当Anthropic、OpenAI继续提升模型能力,DeepSeek能否在有限算力下实现质的飞跃?

更值得讨论的是:梁文锋在长达15个月未发布新模型的情况下,选择重金押注人才和算力储备,这是否意味着DeepSeek在技术路线上有重大调整?比如从纯MoE转向混合专家+稀疏注意力,或者在后训练上引入更复杂的RL框架?期待有了解内情的朋友分享。