刚看到DeepSeek-V3的详细技术报告,确实被其MoE架构的稀疏激活效率震撼了。在C-Eval和MATH基准上,V3以671B总参数但仅激活37B的推理成本,实现了与GPT-5平齐甚至更优的中文数学推理能力。这不仅是数据蒸馏的胜利,更是其动态路由机制对中文语义歧义的精准捕捉——毕竟英文语料训练的大模型常把'行'字在不同语境下搞混。
从个人经验看,API价格仅为GPT-5的五分之一意味着两件事:一是中小企业终于能用上准一线模型做垂直场景微调,二是推理成本下降会倒逼更多国产模型放弃参数竞赛转向效率优化。但有个陷阱:V3在复杂代码生成和开放域对话中偶尔出现逻辑跳跃,我怀疑是中文高质量长文本训练语料仍存在稀疏性。
抛两个问题:1) 有谁实测过V3的MoE在不同任务下的激活参数分布?是否像传闻中偏向特定专家模块?2) 当低价API成为常态,OpenAI的封闭生态还能靠品牌溢价撑多久?
行业格局上,DeepSeek这步棋直接打穿了'性价比天花板',如果后续能开放模型权重并兼容LoRA微调,很可能复现Llama在开源社区的影响力。但要注意,低价不等于低成本,大规模部署时的显存带宽瓶颈仍未解决。