刚看到DeepSeek-V3发布的消息,我第一时间跑了下基准测试。说实话,中文理解和数学推理的提升幅度确实出乎意料,尤其是在C-Eval和GSM8K上的表现,几乎逼近甚至在某些子任务上超越了GPT-5。但更让我关注的是API价格——仅为GPT-5的五分之一,这对中小团队来说是实打实的利好。
从技术角度看,DeepSeek-V3大概率采用了混合专家架构(MoE)和更高效的注意力机制,才能以低成本实现高精度。我个人的经验是,很多模型在中文长文本理解上会崩,但DeepSeek-V3在处理古文和复杂逻辑链时明显更稳。不过,我质疑的是它在多轮对话和指令遵循上的泛化能力,毕竟低价往往意味着某些场景下的妥协。
抛两个问题:1. MoE架构的稀疏性是否会导致某些领域知识断层?2. 低价策略会倒逼GPT-5降价,还是让国内厂商在垂直场景上加速替代?
行业影响上,我觉得DeepSeek-V3直接打穿了API定价的下限,未来半年内,中小模型厂商要么在中文场景上做到极致,要么在成本上拼到地板。对那些依赖GPT-5做中文产品的团队来说,现在是个切换的好时机,但生产环境部署前一定要做好长尾测试。