刚看到DeepSeek-V3发布的消息,中文理解和数学推理能力突出,API价格仅为GPT-5的五分之一。作为长期关注大模型落地的学习者,我第一时间去看了技术报告,有几个点想和大家探讨。

首先,中文能力突出很可能源于其训练数据中中文语料的高质量占比,而非简单的模型架构创新。从实测看,它在古诗词理解、成语推理等场景确实比GPT-5更自然,但这是否意味着在通用任务上也能全面领先?我好奇的是,其MoE架构的稀疏激活比例和专家数量具体是多少——这直接影响推理成本和响应速度。

其次,价格低至GPT-5的五分之一,背后可能是更高效的蒸馏策略或更小的推理参数规模。但低价格是否能维持长期服务稳定性?个人经验是,一些低价API在高峰时段会出现显著延迟,这在实际生产中比价格更重要。

我的疑惑是:DeepSeek-V3在数学推理上的优势,是否依赖于特定数据集(比如GSM8K或MATH)的过拟合?如果换到更开放的竞赛题或跨领域推理,表现如何?另外,这个价格策略对行业格局的影响——会不会引发国内其他厂商跟进降价,还是说这只是深度求索的短期营销手段?

最后,从行业角度看,中文大模型的性价比拐点可能真的到了。但我们需要更透明的基准测试,比如在C-Eval、MMLU上的细粒度对比,而不是仅靠宣传数据。欢迎有实测经验的朋友分享你们的API调用感受!