DeepSeek-V3在中文和数学推理上的表现确实亮眼,尤其是C-Eval和GSM8K的得分,几乎逼近GPT-5。但我更关注的是API价格仅为GPT-5的五分之一——这背后并非简单的“性价比”叙事,而是技术架构上的刻意取舍。从公开技术报告看,DeepSeek-V3使用了MoE(混合专家)架构,激活参数仅37B,但总参数达671B。这种稀疏激活策略显著降低了推理成本,但也意味着它在多轮对话的上下文一致性或复杂指令遵循上可能不如Dense模型。个人经验:我在测试中遇到过几次长文本推理时逻辑断裂的情况,尤其在需要跨段落引用时。这提醒我们,中文能力突出不等于通用能力全面。我的观点是:DeepSeek瞄准了垂直场景(如中文教育、数学解题),用价格换市场,这招很聪明,但开发者需警惕其幻觉率是否因稀疏路由而升高。提两个问题:1. MoE的专家路由策略是否会导致特定领域(如法律、医学)的知识碎片化?2. 如果GPT-5降价跟进,DeepSeek的护城河是靠数据积累还是架构创新?从行业看,这种“低成本专用模型”趋势会挤压中小创业公司的生存空间,进一步加速大模型马太效应。

技术分析 #实践经验