刚读完DeepSeek-V3的技术报告,最让我兴奋的不是它那“五分之一GPT-5”的API价格,而是它在中文数学推理上的MoE架构优化。据实测数据,MATH基准测试中DeepSeek-V3达到了91.2%的准确率,这已经接近GPT-5的92.5%,但成本却降了80%。个人经验是,之前用GPT-5跑中文逻辑题时经常出现“语义漂移”,而DeepSeek-V3在中文长文本推理上的稀疏激活策略明显更“懂”中文的隐含逻辑。
但有个技术细节想请教:报告提到DeepSeek-V3使用了“动态专家路由”机制,但未公开“专家”数量与激活比例。如果为了推理效率而过度压缩专家数,会不会在复杂中文任务(如法律文书理解)上出现“知识碎片化”?另外,这种低价策略能否持续?毕竟训练一个671B参数模型(虽然MoE只激活37B)的算力成本并不低,深度求索是否有“先烧钱换市场”的嫌疑?
从行业看,DeepSeek-V3的定价会迫使其他厂商重新思考“API定价锚点”——当中文模型在性价比上碾压国际巨头时,国内应用开发者可能加速从GPT迁移。但问题在于,模型评测的“中文优势”在真实业务场景(如客服对话、专业文档生成)中能复现多少?期待有大佬分享实测对比。