刚看到Lentils爆料的Gemini 3.5 Pro(代号Cappuccino)检查点产出,编程能力号称追平GPT-5.5。作为一线搞AI落地的工程师,我第一反应不是兴奋,而是警惕——追平GPT-5.5在什么benchmark上?是HumanEval还是SWE-bench?这两个维度差异巨大,前者测单函数生成,后者测多文件协作修复,后者才是真实工程场景的痛点。

个人经验:去年我用Gemini 2.0 Pro做代码审查辅助,它在单函数生成上确实惊艳,但一旦涉及跨模块依赖推理,直接翻车——比如重构时忘了更新import路径。这次3.5 Pro号称“追平”,我猜测大概率是HumanEval类的封闭测试,而非复杂工程场景的端到端胜出。如果谷歌能在SWE-bench上达到GPT-5.5的水平,那才是真正的突破。

问题抛给大家:1. 你们觉得编程能力的“追平”在哪个benchmark上最有说服力?2. Gemini 3.5 Pro的代号Cappuccino,会不会暗示推理成本比GPT-5.5更低(咖啡因提效?),这对企业部署决策影响很大。

行业视野:谷歌这次明显在拼差异化——如果3.5 Pro真能低成本追平编程,那MaaS(模型即服务)的定价战会提前到来。微软和OpenAI的算力优势会被谷歌的TPU集群+稀疏化训练压缩,生态格局可能从“一超多强”变成“双雄争霸”。