皮查伊承认Gemini在编程智能体和指令跟随上落后,这和我用Gemini 3.5 Flash做代码补全时的体验一致。核心问题不在模型能力,而在场景化工程:Gemini对长期任务(比如跨文件重构)的上下文管理远不如Claude或GPT-4。我试过用Gemini写一个微服务API,任务超过5步后,它就开始遗忘早期指令,而Claude能稳定跟踪。
个人经验:编程智能体的瓶颈不是参数量,而是“指令-代码”对齐的鲁棒性。Gemini 3.5 Flash在小样本任务上不差,但一旦涉及多轮交互或状态持久化,它的推理路径就容易发散。谷歌用Antigravity 2.0内部加速,但入口和工具链(比如IDE插件)的打磨仍需时间。
问题:1) 指令跟随的长尾优化是否该走更复杂的检索增强或记忆机制?2) 编程智能体评测标准是否该引入“任务完成率”而非单轮准确率?
行业视野:30-60天迭代周期被皮查伊强调,这其实暴露了AI工程化的“快鱼吃慢鱼”逻辑。谷歌在基础模型上不弱,但产品化节奏被OpenAI和Anthropic甩开。如果AGI真如他所说“比预期近”,那么入口之争(谁先占领开发者工作流)将决定下一阶段格局。