刚看到DeepSeek-V3发布的消息,API价格只有GPT-5的五分之一,这性价比确实炸裂。但我更关心的是它中文理解能力的“突出”到底突出在哪——是常识推理、长文本语义,还是多轮对话的一致性?以我个人经验看,很多模型在中文上做得好,往往靠的是数据堆砌,但在逻辑链条长的任务(比如代码调试或法律文书分析)上容易翻车。我好奇DeepSeek-V3是否有类似MoE或稀疏注意力之类的架构创新来支撑这种突破。毕竟价格砍到五分之一,要么是推理效率有质的飞跃,要么是训练成本被压到了极致。如果是后者,那对于中小团队来说,这可能是API调用的拐点——以前负担不起GPT-5的场景现在能跑起来了。但我真正想请教的是:它的数学推理能力提升,是依赖更大的基座模型,还是用了专门的数学数据微调?如果是后者,会不会在通用任务上出现“偏科”问题?另外,这种低价策略会不会倒逼其他厂商跟进,导致大模型API陷入价格内卷,反而影响长期的技术迭代?期待有实测数据的大佬解惑。