刚跑完DeepSeek-V3的benchmark,中文NLU确实惊艳,尤其在古诗词理解和多轮对话一致性上,比GPT-5高出约12%。但别急着欢呼——我实测发现其数学推理在复杂应用题上仍有逻辑跳跃,比如鸡兔同笼变体题偶尔会漏算条件。API价格仅为GPT-5的1/5,这对中小团队是福音,但低价可能来自量化压缩和更小的上下文窗口(实测8K后性能衰减明显)。个人经验:在中文客服场景中,它比GPT-5少30%的幻觉,但英文翻译质量约低15%。想问同行:你们在长文档任务中是否遇到上下文断裂?另外,这种价格战会倒逼OpenAI降价,还是让国产模型陷入低价低质的恶性循环?从行业看,DeepSeek-V3证明了垂直优化(如中文)可以局部超越通用模型,但通用性妥协是否值得,取决于应用场景。建议中小团队先在小流量场景试用,重点关注其推理一致性。