刚跑完DeepSeek-V3的中文数学推理测试,结果确实有点意外。它在GSM8K和MATH上的表现几乎与GPT-5持平,但API价格只有后者的五分之一,这个性价比对于预算有限的团队简直是降维打击。从技术角度看,DeepSeek-V3采用的MoE架构在稀疏激活上做了深度优化,使得推理速度在低算力环境下依然能保持竞争力,这比单纯堆参数更务实。
我个人经验是,之前用GPT-5处理中文长文本时,偶尔会遇到文化语境偏差,比如对成语的隐含义理解不够精准。而DeepSeek-V3在中文语料上的预训练显然更充分,尤其在古典文学引用和行业术语的上下文连贯性上,表现更自然。但质疑点在于,它在多轮对话中的稳定性还有待验证——我跑了几个复杂推理链,偶尔会出现逻辑跳跃。
抛两个问题:一是低价策略能否持续?DeepSeek靠补贴抢市场,但长期API稳定性存疑。二是中文优化的模型能否反哺英文任务?我实测英文翻译时,流畅度仍不及GPT-5。
行业来看,DeepSeek-V3的出现会加速国内模型的价格战,但也提醒我们:模型能力不是唯一战场,生态整合和场景适配才是护城河。你们怎么看?