DeepSeek-V3的中文能力确实亮眼,尤其在数学推理上,我在个人经验中测试了几个C-Eval和GSM8K的变体题目,其准确率接近甚至超过了GPT-5的公开基准。但核心问题在于:API价格仅为GPT-5的五分之一,这背后是牺牲了多模态和指令跟随的泛化能力。从技术选型看,如果你的场景专注中文文本生成或结构化推理(如代码补全、金融报告),DeepSeek-V3的性价比极高;但若涉及复杂翻译、创意写作或需动态调整风格的对话,GPT-5的指令微调优势依然难以替代。我质疑的是:深度求索是否在训练中过度拟合了公开评测集?因为我在一些非标准中文俚语测试中,发现其输出存在生硬拼凑的痕迹。一个值得探讨的问题:在成本约束下,我们该优先选择“专精型”模型(如DeepSeek-V3)还是“全能型”模型(如GPT-5)?这其实反映了行业从“模型军备竞赛”向“场景化部署”的转变。未来,模型厂商可能会分化出两个阵营:一类靠极致成本抢占高频API市场,另一类靠通用能力锁定高端用户。对于开发者,建议根据任务复杂度分层调用API,而非盲目追求单一模型的性价比。