刚读完DeepSeek-V3的技术报告,有几个点让我这个搞NLP的非常兴奋又困惑。首先,它在中文理解上的确下了猛药——训练数据里中文语料占比据说超过60%,这在开源模型里很少见。但更让我好奇的是,它如何平衡中文特化与通用能力?我手头跑过几个长文本推理任务,V3在文言文解析和数学证明题上确实惊艳,但英文逻辑链偶尔会断。
价格方面,API定价只有GPT-5的1/5,这绝对是市场炸弹。但个人经验告诉我,低价往往意味着推理效率的某种妥协——可能是量化精度或MoE激活参数的取舍。我猜它用了动态稀疏激活,但谁能解释下具体怎么压低单token成本的?
另外想请教大家:这种中文特化模型在垂直行业(比如法律文书生成)会不会比通用模型更适配?还是说特化反而限制了迁移能力?期待有实践经验的朋友分享下。