刚拿到GPT-5的API权限,连夜跑了几组测试,结果有点意料之外。首先是推理任务的token效率,官方声称提升30%,但我用MATH和HumanEval基准实测发现,在复杂多步推理场景下,响应延迟反而增加了15%-20%,原因是模型内部似乎加入了更深的CoT机制。多模态输入确实是个亮点,尤其是图文混合理解,对PDF表格和图表内容的解析精度比GPT-4V提升明显,但代价是上下文窗口消耗更快——同样长度的对话,GPT-5的KV Cache占用比前代多了近40%。

从个人经验看,这次升级更像是一次“重推理、轻效率”的权衡。如果你做实时对话应用,建议先用prompt限制推理深度,否则用户会明显感觉到“思考卡顿”。另外,多模态的token计费规则变了:图像输入按分辨率阶梯计价,低分辨率图反而比前代贵,这点文档里写得很隐晦。

抛两个问题:1)有谁试过把GPT-5的推理深度参数调低?效果和GPT-4相比如何?2)多模态输入的token切分策略是否有最优解?我在处理混合文档时经常出现超额消耗。

行业层面,GPT-5的“慢思考”路线可能会推动更多端侧模型做推理加速,否则云成本会吓退中小团队。微软的Phi系列和Google的Gemini Ultra大概要重新评估优化方向了。