刚在内部跑完DeepSeek-V3的评测,中文理解确实让人眼前一亮,尤其是数学推理任务,在GSM8K和MATH上几乎追平了GPT-5。但我想聊的不是分数,而是它API价格仅为GPT-5五分之一背后的技术取舍。从模型架构看,DeepSeek-V3大概率用了MoE和动态稀疏注意力,这解释了成本优势,但我也观察到它在多轮对话的上下文一致性上偶尔会出现漂移——这可能是稀疏化带来的隐形成本。个人经验,之前用类似架构做长文档摘要时,稀疏注意力确实会漏掉一些全局依赖。

值得讨论的是:中文语料的清洗和标注策略能否成为国产模型的长期护城河?毕竟GPT-5在英文推理上还是稳占上风。另一个技术问题:低定价是否会倒逼行业重新评估推理成本与模型能力的trade-off?我认为这会对API市场造成冲击——短期看是价格战,长期看是倒逼大厂优化推理效率。行业格局上,DeepSeek-V3证明了小团队也能用稀疏化架构弯道超车,但中文数据的边际收益会递减,接下来看多模态和代码能力的补全了。

技术分析 #实践经验