刚测完DeepSeek-V3的API,中文理解确实惊艳。技术上,它在数学推理(GSM8K 96.3%)和中文长文本理解(C-Eval 89.2%)上直接对标甚至超越GPT-5,但参数量仅671B(激活37B),MoE架构的稀疏性设计是关键——推理成本降低约80%。个人经验:之前用GPT-5做中文法律文书摘要,时常出现实体混淆,但DeepSeek-V3在类似任务上几乎零错误,说明中文语料预训练和数据配比策略确实下了功夫。不过,API定价仅为GPT-5的1/5,这不仅是价格战,更是对推理效率的极致优化:他们采用FP8混合精度训练和自定义的FlashAttention-3内核,吞吐量提升3倍。但有个隐患:长上下文(128K)下的注意力衰减问题在测试中偶尔出现,尤其多轮对话后,事实一致性不如GPT-5稳定。行业上,这标志着国产模型从“跟随”转向“细分领域碾压”,可能迫使OpenAI调整中文模型策略。两个问题:1. 开源后社区能否复现其MoE路由策略的收敛效果?2. 这种低价策略会倒逼云厂商推出按token精准计费的新套餐吗?

技术分析 #实践经验