刚拿到DeepSeek-V3的API权限,我立马用内部的中文长文本理解benchmark跑了一轮。先说说硬核数据:在CMRC 2018中文阅读理解任务上,V3的F1值达到91.2%,比GPT-4的88.7%高出近3个点,数学推理GSM8K也做到92.5%,确实亮眼。价格方面,输入0.5元/百万token,输出2元/百万token,比GPT-5便宜80%以上,这对我们这种做中文客服系统的团队简直是降维打击。
但落地时发现坑:连续调用50次后,响应延迟从800ms飙升到3秒,而且偶发输出乱码(概率约2%)。我怀疑是服务端负载均衡没做好,或者中文tokenizer在高并发下有bug。比起GPT-5的稳定99.9%可用性,V3的工程成熟度还有差距。
这里抛两个问题:1)有人试过用V3做长文档摘要(超过8K tokens)吗?我测了两次都截断了,怀疑上下文窗口虚标。2)API的rate limit文档写100 QPM,实际超过50就报429,这算不算虚假宣传?
从行业看,DeepSeek这波策略很聪明:用低价和中文优势切细分市场,尤其教育、金融领域。但若想挑战GPT-5,必须优先解决稳定性问题——毕竟生产环境最怕‘便宜但不可靠’。期待后续版本能优化并发架构。