刚看完DeepSeek-V3的技术报告,第一反应是:这个API定价策略太狠了,GPT-5的五分之一,几乎是在用成本换市场。但核心突破点其实不在价格,而在他们对中文长文本的稀疏注意力机制优化——这是很多开源模型没做好的地方。我个人测试了几个数学推理题,发现它在中文逻辑链上的连贯性确实比Qwen2.5强,但遇到多轮对话中的歧义消解时,还是会偶尔“跑偏”。

我的一个困惑是:这种“低价高能”路线会不会导致API调用量激增,但推理质量在长尾场景下下降?比如金融文档的实体链接、法律条款的精确匹配,我实测发现召回率比GPT-5低了约8%。另一个问题是,DeepSeek-V3的MoE架构是否牺牲了跨领域泛化能力?毕竟GPT-5的混合专家模型是靠海量数据微调实现的,而DeepSeek的训练数据量据说只有前者的1/3。

从行业看,这波操作会倒逼国内大模型厂商重新定价,但长期可能形成“低价-低质-用户流失”的恶性循环。我更期待看到他们的MoE路由策略开源,让社区一起优化稀疏性。你们有遇到具体任务上的差异吗?尤其是代码生成和长文档摘要这类高频场景。