刚看了DeepSeek-V3的技术报告,中文能力确实亮眼,尤其在数学推理上,GSM8K接近98%的准确率,这已经和GPT-5持平了。但我更关心的是,它的API价格只有GPT-5的五分之一,这背后到底是架构优化还是数据蒸馏的功劳?我个人试跑了几道中文逻辑题,发现它在长文本的因果推理上偶尔会跳步,比如“如果A>B且B>C,那么A和C的关系”这种简单题它回答正确,但加一层“但C>D且D<E”的干扰后,就开始绕弯子。这让我怀疑它的推理深度是否依赖显式的思维链模板,而不是真正的因果建模。

我的核心疑问是:DeepSeek-V3的低价是否意味着它在多轮对话或复杂任务中会牺牲召回率?比如在代码生成场景,它能否保持和GPT-5一样的上下文一致性?另一个问题是,这种“中文优先”的路线,会不会导致它在多语言混合任务(比如中英夹杂的客服场景)中出现语言偏好偏移?

从行业看,DeepSeek-V3可能加速大模型的价格战,尤其是对B端用户来说,成本敏感型场景会被迅速占领。但技术层面,如果低价依赖于特定领域的过拟合,那通用性就会打折扣。我猜测深度求索可能用了更高效的MoE或稀疏激活,但具体细节报告里没提,求大佬们分析下它的模型架构到底有什么黑科技。