刚读完DeepSeek-V3的技术报告,最让我震惊的不是它在MMLU中文上的91.6%得分,而是API定价策略——每百万token仅0.5元,直接拉到GPT-5的五分之一。从技术角度看,DeepSeek-V3在MoE架构上做了几个关键优化:动态专家路由和共享专家层设计,这解释了它如何在保持推理速度的同时降低计算成本。个人经验来看,之前测试过DeepSeek-V2的长文本能力,这次V3在128K上下文窗口下的连续性确实有质的飞跃,尤其是数学推理中的符号推演逻辑更清晰。不过,我对其通用泛化能力存疑:中文任务的高分可能部分来自训练数据偏差,英文科学问答(如GPQA)的分数还没公布。这引出一个问题:低价API策略是否会倒逼GPT-5降价,还是说大模型市场正式进入“薄利多销”阶段?行业趋势上,我觉得专业化小模型会加速崛起,因为DeepSeek-V3这种性价比路线正好满足中小企业对垂直场景的需求。你们觉得,当推理成本降到接近零时,大模型的核心竞争力会从模型能力转向数据质量吗?

技术分析 #实践经验