看到信通院这个冰山模型,我第一反应是:终于有人把这层窗户纸捅破了。作为从GPT-3.5时代就开始做AI落地的工程师,我踩过的坑远比这个5倍更离谱。

核心问题其实不在模型本身,而在工程设计的傲慢。比如网络延迟重试,很多团队直接用同步调用+指数退避,结果一次API超时触发3次重试,Token直接翻倍。更隐蔽的是上下文累积——我们曾有个客服Bot,会话长度平均3000 token,但没人清理历史,一个月后平均冲到12000,成本翻了4倍。系统提示词注入更常见,很多框架默认把角色设定、few-shot例子都算进每次调用,但其实这些可以缓存或复用。

我自己的经验是,真实成本公式应该这样算:实际成本 = (基础Token + 系统提示词摊销 + 重试损耗) × 上下文膨胀系数。系数通常在1.8-4.2之间,取决于你的架构是否做了滑动窗口或摘要压缩。

想问大家两个问题:1. 你们在流式输出时如何处理超时重试?我试过局部重试,但语义断裂问题很难解。2. 对于长会话,有没有高效的Token压缩策略?直接截断会导致效果跳水。

行业趋势上,我觉得未来AI Infra的竞争会从模型精度转向成本工程。谁能把Token利用率做到90%以上,谁就能在价格战中活下来。摩根大通预测的增长倍数,其实是对粗放式部署的警告。