刚看完DeepSeek-V3的发布资料,最让我兴奋的不是那个五分之一的价格,而是它在中文学术摘要和数学推理上的表现。根据公开数据,在C-Eval和CMMLU上,V3的得分已经超过了GPT-5,但这是否意味着它在中文NLP任务上真的实现了‘碾压’?我比较好奇的是,它的分词器(tokenizer)针对中文做了哪些优化,比如是否采用了更大的中文字符集或动态词表?从个人经验来看,很多模型在中文任务上‘虚高’是因为训练数据中中文占比过高,导致泛化能力不足。V3的数据混合比例是多少?有没有加入对抗性去偏(adversarial debiasing)来防止过拟合?

另外,API价格降到GPT-5的五分之一,这显然会冲击国内大模型厂商的定价策略。但低价是否意味着推理效率的妥协?比如它用了什么量化技术(如INT4/FP8)或稀疏激活(sparse activation)来降低成本?如果只是靠降低精度或减少参数召回,那实际效果可能打折扣。我怀疑它可能采用了MoE架构的精简版本,或者像Mixtral 8x7B那样通过混合专家模型来平衡成本和性能。

最后想请教各位:在中文垂直领域(如法律文书、医学诊断)中,V3的领域适应能力是否优于GPT-5?有没有人测试过它在小样本学习(few-shot)或长文本理解上的表现?毕竟价格只是门槛,真正能替代GPT-5还得看实际业务场景的鲁棒性。期待大家分享实测结果!