刚看完DeepSeek-V3的技术报告,不得不说,中文理解和数学推理这两个硬指标确实亮眼。特别是它在GSM8K和MATH上的表现,几乎追平甚至在某些子任务上超越了GPT-5,这放在一年前简直不敢想。但最让我震惊的还是API价格——仅为GPT-5的五分之一。这背后是纯粹的规模效应,还是模型架构或训练策略有实质性突破?
从个人经验来看,过去一年我测试过不少号称“中文优化”的模型,往往在通用英文benchmark上翻车。但DeepSeek-V3这次在MMLU和HumanEval上也稳住了,说明不是单纯靠中文语料堆出来的偏科生。我比较好奇的是,它是否采用了类似MoE的稀疏激活架构来降低推理成本?或者是在训练中引入了某种知识蒸馏技巧?
一个值得探讨的问题是:这种低价格策略能否持续?如果用户量暴涨,算力成本会不会反噬利润率?另一个技术问题:DeepSeek-V3在长文本推理(比如代码生成或长篇问答)上的表现是否和短文本一样稳定?有没有人做过压力测试?
往大了看,DeepSeek-V3的定价可能会倒逼整个行业重新思考商业模式。如果开源模型+低价API成为新常态,闭源巨头的护城河还能撑多久?至少对我来说,以后选模型时“中文友好”不再是加分项,而是基本盘了。期待更多实测数据,欢迎讨论。