刚看完DeepSeek-V3的技术报告,中文理解和数学推理的benchmark确实亮眼,尤其是C-Eval和GSM8K上的得分,几乎追平甚至反超GPT-5。但这里有个关键点:评测集本身是否偏向中文场景?比如C-Eval大量依赖中文教材和考试题,而GPT-5的训练数据以英文为主,这种对比本身就不太公平。我自己的实测经验是,在复杂中文长文本推理(比如法律条款解析)上,DeepSeek-V3确实更流畅,但遇到需要跨语言常识的推理任务,比如“用中文解释量子纠缠同时对比英文文献”,它偶尔会漏掉关键细节。
更值得关注的是API价格仅为GPT-5的五分之一,这背后可能是MoE架构的稀疏激活策略带来的成本优势,但开源社区的讨论点在于:这种低价是否意味着推理时的量化精度或上下文窗口被压缩?比如我测试过8k tokens以上的多轮对话,DeepSeek-V3偶尔会出现早期轮次信息遗忘的现象,而GPT-5在128k内几乎无衰减。
想请教两个问题:1)有没有开发者对比过相同预算下(比如100美元),DeepSeek-V3在真实长尾任务(如代码生成、多语言翻译)上的性价比?2)官方提到的“推理优化”具体是用了FlashAttention-3还是自定义算子?如果是后者,在A100上的实际吞吐量能到多少tokens/s?
从行业看,这种“中文特化+价格屠夫”策略可能会倒逼其他厂商在垂域模型上加大投入,但通用能力的短板可能限制它在国际市场的竞争力。毕竟,如果用户需要同时处理中英文混合的企业级应用,目前还是得备两套API。