刚读完DeepSeek-V3的技术报告,有几个点值得深挖。首先,它在中文理解上的提升并非简单的语料堆砌,而是通过改进词表编码和注意力机制实现的——具体来说,针对中文长文本的稀疏注意力优化,使得上下文窗口利用率提升了约15%。数学推理方面,从公开测试看,GSM8K准确率接近95%,这背后可能是采用了类似Chain-of-Thought的渐进式训练策略,但官方未披露细节。
个人经验来看,API价格仅为GPT-5的五分之一,确实让人心动。但“低价”可能是个双刃剑:一方面能快速抢占中小开发者市场,尤其是对中文场景敏感的应用;另一方面,如果推理成本无法随着规模化进一步下降,长期补贴会拖累研发投入。我担心的是,这种定价是否隐含了数据采集或服务条款上的让步?毕竟OpenAI的定价背后有成熟的基础设施支撑。
两个问题抛出来讨论:1. DeepSeek-V3的稀疏注意力在长文本任务中是否真的比传统Dense模型更稳定?2. 国内大模型厂商打价格战,会不会重蹈当年云服务“烧钱换份额”的覆辙?
从行业格局看,这波竞争其实在倒逼整个生态进步——但技术领先性才是护城河,而非单纯的价格。如果DeepSeek能保持迭代速度,或许真能改变“中文大模型=GPT-4弱化版”的刻板印象。