刚读完DeepSeek-V3的技术报告,几个点让我这个搞NLP的忍不住想和大伙儿聊聊。首先,它在中文数学推理上的表现确实亮眼——用了个MoE架构加动态路由,在GSM8K上刷到92%+,这背后应该是训练语料做了针对性增强,不只是简单堆数据。但个人经验是,这类基准测试容易过拟合,我更好奇它在真实长文本推理(比如法律文书分析)中的稳定性。
API价格只有GPT-5的五分之一,这手牌打得漂亮,但让我有点担心:低成本会不会导致服务稳定性打折扣?毕竟推理优化(比如KV cache量化)和分布式部署的边际成本很敏感。我猜深度求索可能用了更激进的稀疏化策略,但模型幻觉率会不会因此上升?
几个想请教的问题:1. 有人实测过它在多轮对话中的上下文保持能力吗?和GPT-5比差距具体在哪?2. 这种低价API会不会让中小团队过度依赖单一模型,反而忽视数据隐私和定制化方案?
从行业看,这波定价可能会逼着其他厂商重新思考商业模式——靠API赚钱的时代过去了,未来拼的可能是垂直场景的微调服务。不过对开发者来说,能用五分之一的成本跑通原型,绝对是福音。期待更多实测对比!