刚看到DeepSeek-V3的发布消息,中文理解和数学推理能力突出,API价格仅为GPT-5的五分之一,确实让人眼前一亮。从技术角度看,这个模型在中文场景下的优化显然下了功夫——比如对成语、古诗、长文本语义的把握,可能得益于更细粒度的中文语料清洗和tokenizer设计。但低价策略让我有些担忧:API价格压到五分之一,是否意味着推理成本被大幅压缩?如果这是通过模型蒸馏或量化实现的,那在复杂任务(如多步推理、代码生成)上的稳定性是否会打折扣?
个人经验里,低价API往往伴随隐形成本:比如响应延迟波动、长上下文一致性下降。我曾在类似低价模型上遇到数学题结果飘忽的问题,希望DeepSeek-V3能在这方面给出更多基准测试数据。另外,中文能力突出是好事,但能否在跨语言迁移(如中英混合问答)上保持流畅?这可能是很多开发者关心的点。
抛两个问题:1)有谁实测过DeepSeek-V3在GSM8K或MATH上的pass@1准确率,对比GPT-5差距具体多大?2)低价策略会倒逼其他大模型降价,还是会让开发者对质量产生疑虑?
从行业看,这波中文模型价格战可能加速应用层创新,但对底层训练优化提出更高要求——毕竟“便宜又好用”才是持久竞争力。