梁文锋用四小时会议把融资额从50亿砍到15亿,这操作在AI圈堪称清流。核心不在于融了多少钱,而在于他传递的信号:AGI不是烧钱游戏,而是算法和基础设施的精密博弈。从技术角度看,DeepSeek的MoE架构和长上下文优化已经在开源社区引发热议,但15亿资金能否支撑起千亿参数模型的训练和迭代?我个人的经验是,模型训练中数据质量、分布式计算效率、推理成本控制才是真正的护城河,资金规模反而次要。梁文锋强调‘平凡人做不平凡事’,本质上是想用工程化思维降低AGI门槛,这跟当前大厂动辄百亿军备竞赛形成鲜明对比。一个值得讨论的问题是:如果DeepSeek真的在有限预算下跑出接近GPT-4的性能,是否会倒逼行业重新评估‘大力出奇迹’的范式?另外,Monolith作为早期投资人,为何愿意接受融资额骤降?这是对技术路线的极度信任,还是另有战略考量?从行业格局看,这种‘反规模’融资可能引领一波AI创业新趋势:更关注模型效率而非参数堆砌,更依赖算法创新而非资本杠杆。梁文锋的赌局在于,用15亿赌一个AGI的未来,这比50亿更危险,也更有趣。
DeepSeek融资缩水70%:AGI理想主义者的务实赌局
全部回复
共 2 条说实话,看到这个帖子我心里挺有感触的。我自己也在做模型微调和分布式训练,去年折腾一个7B模型的时候,光数据清理和分布式通信优化就卡了三个月。梁文锋这个操作,圈外人可能觉得是噱头,但我反而觉得这才是真正懂工程的人会做的事。
融资砍到15亿,本质上是把资源杠杆压到了极致。我猜他们的逻辑是,与其把钱撒在盲目堆卡上,不如把每一分钱花在刀刃上。MoE架构本身就是一种“省着花”的设计思路,长上下文优化更是对算力的精打细算。我自己试过用DeepSeek的MoE做推理,在显存占用上确实比同参数量的Dense模型低不少,但训练时路由策略的收敛稳定性是个大坑,不知道他们是怎么解决这个问题的。
另外,15亿对千亿参数模型来说确实紧巴巴的。我算过一笔账,千亿参数单次训练跑通,光电费和机器折旧就得几千万,还不算数据采购和人工。如果DeepSeek真能把训练成本压缩到传统方案的1/3甚至更低,那对整个行业都是个信号——AGI未必是只有巨头才能玩的游戏。但问题在于,分布式计算效率的提升到一定程度会有边际递减,不知道他们有没有在通信拓扑或者梯度压缩上有什么新招。
最后想说,如果真能用15亿跑出接近GPT-4的效果,那意味着模型架构和数据配比的设计已经领先了大厂一个身位。我倒挺期待他们开源更多细节的,毕竟社区现在最缺的不是钱,是能落地的工程范式。
其实最让我好奇的是,他砍融资额那场四小时会议的具体逻辑——是主动判断当前市场给AI公司的估值泡沫太大,还是DeepSeek内部对资金使用效率有更极致的规划?毕竟15亿要支撑千亿参数模型的训练,光算力成本这块,如果走自建集群路线,单是A100/H100的采购和运维就够呛;如果租云服务,长期看成本更不可控。他们MoE架构虽然能降低激活参数占比,但长上下文优化带来的KV Cache开销也是个坑,不知道他们有没有在推理侧搞什么trick。
另一个想问的是,这种“平凡人做不平凡事”的团队文化,在实际工程落地时会不会遇到瓶颈?比如数据
清洗、分布式通信优化这类脏活累活,光靠算法天才的灵光一现可不够,得有一群愿意死磕细节的工程师。我猜梁文锋可能在用类似“开源社区共建”的思路来分摊成本,把部分基础设施层的优化交给外部开发者,但这对模型迭代节奏和知识产权管理又会带来新挑战。
最后,如果DeepSeek真在有限预算下接近GPT-4,我觉得最受冲击的可能是那些靠融资规模讲故事的公司——大家会发现原来AGI的竞争壁垒不在钱多,而在工程化能力。但反过来想,这会不会导致资本更谨慎,反而让AI领域的“马太效应”加剧?毕竟小团队烧不起试错成本,一旦某次训练失败就可能全盘皆输。