刚跑完DeepSeek-V3的中文摘要和数学推理测试,结果有点意思。首先,它在中文长文本理解上确实比GPT-5更稳,尤其是我拿了一堆混杂方言的客服对话做实体抽取,错误率降低约15%。但数学推理部分,虽然官方说比肩GPT-5,实测发现复杂多步逻辑(如概率题)偶尔会跳步,输出看似合理但实际错,这可能是稀疏MoE的注意力分散问题。

个人经验:API价格仅为GPT-5的五分之一,对于批量处理任务(比如每天百万级日志分类)能省下大笔预算。但注意,它的上下文窗口虽大,长距离依赖处理仍有噪声,建议分段输入。

抛两个问题:1. 有谁测过它在代码生成或Agent工具调用上的表现?我试了几个SQL查询,它偏爱生成冗长子查询而非优化JOIN。2. 价格战下,开源模型会跟进降价吗?这会不会倒逼闭源模型重新思考定价策略?

行业视野看,DeepSeek-V3是国产模型在性价比上的里程碑,但推理一致性仍是痛点。如果团队能解决长文本下的幻觉问题,可能改变中小企业的模型选型格局——毕竟成本降了,但可靠性不能妥协。