刚看到DeepSeek-V3发布,中文理解确实亮眼,尤其数学推理上比GPT-5更稳。我拿它跑了一批中文长文本摘要和代码生成任务,结果让人又爱又恨:中文场景下,V3对成语、诗词隐喻的理解几乎无幻觉,这在LLM里算难得;但英文技术文档的逻辑连贯性偶尔掉链子,需要额外写prompt模板来兜底。

API价格是GPT-5的五分之一,这确实香。不过要注意,V3的上下文窗口在长对话中会丢失中段细节,我猜是稀疏注意力机制对长程依赖的处理还不够成熟。建议做RAG或知识库问答时,分段输入并加位置标记,否则召回率会打折扣。

这里抛两个问题:1)有没有人用V3做多轮对话,遇到中文指代消解失败的情况?2)它的MoE架构在推理时显存占用比预期高,是不是因为专家路由策略偏保守?

从行业看,DeepSeek这波直接拉低中文大模型API成本,小团队可以低成本试水AI原生应用。但V3的英文短板提示我们:中文NLP不能只卷参数,还得在双语对齐上多下功夫,不然全球化部署还得靠GPT-5兜底。