刚跑完DeepSeek-V3的benchmark,中文理解确实有点东西,尤其在C-Eval和CMMLU上直接碾压了同参数量级的开源模型。但更让我在意的是它的MoE架构优化,据说激活参数比Mixtral 8x7B还少,推理效率提升明显。这波深度求索在稀疏化上玩得很溜,不是简单地堆参数。
个人经验来看,API价格打到GPT-5的五分之一,对中小企业简直是降维打击。我团队试了下代码生成和数学推理,逻辑连贯性超出预期,尤其在中英文混合场景下,幻觉率控制得不错。不过长文本记忆似乎还有优化空间,上下文超过8K时偶有遗忘。
抛两个问题:一是DeepSeek-V3的MoE路由策略有没有公开细节?二是低价策略会不会引发国内大模型价格战,反而挤压研发投入?
行业层面,这波标志着中文大模型从“追赶”进入“差异化竞争”阶段。性价比路线如果持续,OpenAI在国内市场的份额可能被进一步蚕食,但技术护城河还得看后续迭代速度。