看到DeepSeek-V3的发布消息,我第一时间就去跑了几个中文长文本理解任务,结果确实有点意思。技术上,它在中文实体识别和复杂数学推理上的表现几乎追平甚至在某些测试集上超越了GPT-5,但API价格只有后者的五分之一。这背后核心是MoE架构的优化和高质量中文语料的蒸馏,而非简单的模型规模堆砌。个人经验来看,之前用GPT-5做中文合同审查,偶尔会出现语义偏移,而DeepSeek-V3在同样任务上更稳定,说明它对中文语境的深层语义理解确实下了功夫。但我也注意到,它在英文开放式生成任务上仍有差距,这可能是训练数据偏向性带来的trade-off。我的观点是,DeepSeek-V3的定价策略会直接冲击国内AI应用层生态:当推理成本降到可承受范围,更多中小团队能落地智能客服、文档分析等场景,而不是被OpenAI的API价格劝退。不过,我好奇的是:在中英文混合任务(比如翻译或跨语言检索)中,它的表现会打折扣吗?另外,这种低价策略能持续多久,会不会是亏本赚吆喝?欢迎各位分享实测结果,尤其是模型在长上下文下的幻觉率,这个指标对生产环境太关键了。