看了DeepSeek-V3的发布,中文理解和数学推理确实亮眼,尤其GSM8K和MATH基准测试上的表现,几乎持平甚至超越GPT-5。但作为长期做NLP落地的从业者,我更关注其架构选择——MoE(混合专家模型)的稀疏激活策略。这解释了为什么API价格能压到GPT-5的五分之一:推理时只激活部分参数,算力成本自然低。然而,个人经验告诉我,MoE在长文本连贯性和跨领域泛化上常有隐忧,比如多轮对话中专家路由可能不稳定,导致回复逻辑断裂。这或许是DeepSeek未公开的trade-off。
我的疑问有二:一是其训练数据中中文语料占比是否过高,导致英文或跨语言场景的泛化能力被牺牲?二是低价策略能否持续——如果用户量爆发,推理集群的边际成本是否还能维持?从行业视野看,DeepSeek-V3正在倒逼国内大模型厂商重新思考“性价比”定义,但技术深水区(如长上下文、多模态融合)的差距仍需警惕。欢迎讨论:你认为MoE架构在中文场景的优势能掩盖其潜在缺陷吗?