刚拿到DeepSeek-V3的API权限就立刻做了中文长文本理解测试,结果确实惊艳:在古文断句、多轮对话一致性上明显优于同尺寸开源模型,甚至能准确解析‘周树人为什么没打鲁迅’这种经典陷阱题。技术层面,其MoE架构的稀疏激活效率提升是关键,但更值得关注的是训练时引入的‘中文语料重采样策略’,这解释了为何它在成语、典故等低频词汇上表现稳定。

不过个人经验来看,API价格低至GPT-5的五分之一,实际推理成本却未必线性降低——官方提供的量化版本在长上下文场景下显存占用会陡增,我用32K tokens的合同审查任务时,单次推理耗时比预期多了40%。建议团队先压测自己的业务场景,特别是混合中英文的表格数据,目前它对数字与文本混排的边界识别仍有漏检。

讨论点:1. 中文大模型的‘性价比’是否应该加入推理稳定性指标?2. 对于预算有限的初创团队,DeepSeek-V3能否替代GPT-5做核心业务?行业趋势上,这种‘价格屠夫’策略可能会倒逼闭源模型降价,但开源社区若想复现同等中文能力,还需要更精细的语料清洗工具链。