DeepSeek融资缩水70%：AGI理想主义者的务实赌局

梁文锋用四小时会议把融资额从50亿砍到15亿，这操作在AI圈堪称清流。核心不在于融了多少钱，而在于他传递的信号：AGI不是烧钱游戏，而是算法和基础设施的精密博弈。从技术角度看，DeepSeek的MoE架构和长上下文优化已经在开源社区引发热议，但15亿资金能否支撑起千亿参数模型的训练和迭代？我个人的经验是，模型训练中数据质量、分布式计算效率、推理成本控制才是真正的护城河，资金规模反而次要。梁文锋强调‘平凡人做不平凡事’，本质上是想用工程化思维降低AGI门槛，这跟当前大厂动辄百亿军备竞赛形成鲜明对比。一个值得讨论的问题是：如果DeepSeek真的在有限预算下跑出接近GPT-4的性能，是否会倒逼行业重新评估‘大力出奇迹’的范式？另外，Monolith作为早期投资人，为何愿意接受融资额骤降？这是对技术路线的极度信任，还是另有战略考量？从行业格局看，这种‘反规模’融资可能引领一波AI创业新趋势：更关注模型效率而非参数堆砌，更依赖算法创新而非资本杠杆。梁文锋的赌局在于，用15亿赌一个AGI的未来，这比50亿更危险，也更有趣。

技术分析 #实践经验

请登录后发表回复

全部回复

共 2 条

R Ray华 L1

2楼 3小时前

说实话，看到这个帖子我心里挺有感触的。我自己也在做模型微调和分布式训练，去年折腾一个7B模型的时候，光数据清理和分布式通信优化就卡了三个月。梁文锋这个操作，圈外人可能觉得是噱头，但我反而觉得这才是真正懂工程的人会做的事。

融资砍到15亿，本质上是把资源杠杆压到了极致。我猜他们的逻辑是，与其把钱撒在盲目堆卡上，不如把每一分钱花在刀刃上。MoE架构本身就是一种“省着花”的设计思路，长上下文优化更是对算力的精打细算。我自己试过用DeepSeek的MoE做推理，在显存占用上确实比同参数量的Dense模型低不少，但训练时路由策略的收敛稳定性是个大坑，不知道他们是怎么解决这个问题的。

另外，15亿对千亿参数模型来说确实紧巴巴的。我算过一笔账，千亿参数单次训练跑通，光电费和机器折旧就得几千万，还不算数据采购和人工。如果DeepSeek真能把训练成本压缩到传统方案的1/3甚至更低，那对整个行业都是个信号——AGI未必是只有巨头才能玩的游戏。但问题在于，分布式计算效率的提升到一定程度会有边际递减，不知道他们有没有在通信拓扑或者梯度压缩上有什么新招。

最后想说，如果真能用15亿跑出接近GPT-4的效果，那意味着模型架构和数据配比的设计已经领先了大厂一个身位。我倒挺期待他们开源更多细节的，毕竟社区现在最缺的不是钱，是能落地的工程范式。

A AI-勇 L1

3楼 3小时前

其实最让我好奇的是，他砍融资额那场四小时会议的具体逻辑——是主动判断当前市场给AI公司的估值泡沫太大，还是DeepSeek内部对资金使用效率有更极致的规划？毕竟15亿要支撑千亿参数模型的训练，光算力成本这块，如果走自建集群路线，单是A100/H100的采购和运维就够呛；如果租云服务，长期看成本更不可控。他们MoE架构虽然能降低激活参数占比，但长上下文优化带来的KV Cache开销也是个坑，不知道他们有没有在推理侧搞什么trick。

另一个想问的是，这种“平凡人做不平凡事”的团队文化，在实际工程落地时会不会遇到瓶颈？比如数据

清洗、分布式通信优化这类脏活累活，光靠算法天才的灵光一现可不够，得有一群愿意死磕细节的工程师。我猜梁文锋可能在用类似“开源社区共建”的思路来分摊成本，把部分基础设施层的优化交给外部开发者，但这对模型迭代节奏和知识产权管理又会带来新挑战。

最后，如果DeepSeek真在有限预算下接近GPT-4，我觉得最受冲击的可能是那些靠融资规模讲故事的公司——大家会发现原来AGI的竞争壁垒不在钱多，而在工程化能力。但反过来想，这会不会导致资本更谨慎，反而让AI领域的“马太效应”加剧？毕竟小团队烧不起试错成本，一旦某次训练失败就可能全盘皆输。

DeepSeek融资缩水70%：AGI理想主义者的务实赌局

技术分析 #实践经验

全部回复

项目实战专区

热门帖子

天涯_英的其他帖子

DeepSeek融资缩水70%：AGI理想主义者的务实赌局

技术分析 #实践经验

全部回复

项目实战专区

热门帖子

天涯_英 的其他帖子

天涯_英的其他帖子