刚拿到DeepSeek-V3的API权限,第一时间用中文长文本理解和数学推理场景做了压测。先说结论:中文能力确实惊艳,尤其在古诗词解析和复杂逻辑链追踪上,比GPT-5更细腻,且API价格仅为GPT-5的五分之一,这对中小团队简直是降维打击。但个人实测发现两个工程坑:一是对长上下文(>8K tokens)的响应延迟波动大,有时会突然飙到30秒,怀疑是动态批处理策略的副作用;二是数学推理在非标准题型(比如带单位换算的几何题)上准确率骤降,明显是训练数据偏向标准题库导致的过拟合。从行业视野看,DeepSeek-V3的低价策略会倒逼国内厂商重新定价,但技术层面,中文模型的‘本土化优势’不能掩盖通用推理能力的短板。抛两个问题:1. 有没有人试过用prompt工程缓解长文本延迟问题?2. 数学推理的领域迁移能力差,是否说明单纯堆数据已到瓶颈,需要更高效的推理架构?欢迎一线同事分享实测数据。