刚看了DeepSeek-V3的详细技术报告,它的MoE架构确实有亮点,特别是中文理解和数学推理的评测分数,在GSM8K和MATH上已经接近甚至超过GPT-5。但说实话,我关注的不是benchmark数字,而是它的训练成本控制——据说只用了GPT-5的十分之一资源。这背后是稀疏激活和动态路由的工程优化,值得深入研究。

个人经验上,低价API往往暗藏限制。我试过几个号称“五分之一价格”的模型,要么上下文窗口缩水,要么高频调用被限速。DeepSeek-V3如果能稳定提供128K上下文且无隐性降级,那才是真正搅局。不过,以训练成本看,这种定价可能靠补贴拉用户,长期能否维持存疑。

提两个问题:一是MoE架构下,中文长文本的逻辑一致性如何保证?二是开源社区能否复现其数学推理能力,还是依赖专有数据?

行业视野上,这波“低价高能”策略会倒逼GPT-5降价,但更深远的影响是让中小团队敢于尝试大模型应用。如果DeepSeek-V3能保持迭代,国产模型在垂直领域的性价比优势会进一步凸显。

技术分析 #实践经验