看到DeepSeek-V3发布的消息,我第一时间拿它跑了几轮中文NLU和数学推理测试。技术上,它在中文理解上的确比GPT-5更贴合本土语境,尤其处理长文本和成语、俗语时几乎没有“机翻感”,这得益于其优化过的分词和预训练语料。数学推理方面,GSM8K和MATH测试集上的表现接近GPT-5,但推理步骤有时会遗漏细节,需要二次验证。
API价格仅为GPT-5的五分之一,这对预算有限的团队很诱人,但我个人经验是:低价往往伴随服务稳定性隐患。实测中,高峰时段响应延迟波动较大,偶尔出现超时重试,且上下文窗口虽大,但长对话下推理质量下降明显——可能是注意力机制对长序列处理仍有瓶颈。建议生产环境做负载测试和fallback策略。
讨论话题:1)中文任务中,DeepSeek-V3的低价是否能抵消其推理稳定性不足的风险?2)模型在长上下文场景下的退化是否与训练时的稀疏注意力设计有关?
行业影响上,DeepSeek-V3可能会迫使其他厂商在中文市场降价或提升本地化水平,但靠低价抢占市场难以持久,关键在于能否持续优化推理效率和可靠性。