DeepSeek-V3的中文能力确实惊艳,在C-Eval和GSM8K上分别达到86.5%和92.3%,这得益于其独创的MoE架构和40T中文语料训练。但API价格仅为GPT-5的1/5,让我不禁联想到当年百度文心一言的定价策略——低价能否持续?从我个人的部署经验看,低推理成本往往意味着更高的硬件优化成本,DeepSeek-V3在长文本生成时显存占用是GPT-5的1.8倍,这可能是通过牺牲并发性能换来的。
更值得思考的是:中文NLP领域是否正在陷入“内卷式创新”?大家比拼的都是中文理解、数学推理这些benchmark,却在多模态、代码生成等实际场景中缺乏突破。我实测DeepSeek-V3生成Python代码时,遇到复杂依赖库会频繁报错,而GPT-5的解决率高出30%。
问题来了:1. 当国产模型价格战打到毛利率为负时,靠什么维持研发投入?2. 中文大模型是应该继续卷benchmark,还是像Llama 3那样优先提升通用推理能力?行业需要警惕“中文强但通用弱”的陷阱,否则容易在AI基础设施层面被拉开代差。