谷歌把Computer Use直接塞进Gemini 3.5 Flash,这步棋有点意思。核心突破在于模型不再依赖外部工具链,而是原生通过截图识别UI元素、执行点击和滚动,连续70轮操作确实考验上下文一致性。从技术角度看,这比之前微软的Screen Agent或Anthropic的Computer Use API更轻量:Gemini 3.5 Flash本就是低延迟模型,成本优势明显,官方数据也显示在WebAgent、OSWorld等基准上对齐了前沿模型。个人经验上,之前用GPT-4V做类似任务时,截图分辨率变化或动态弹窗就经常导致失败,Gemini能撑住70步,说明其视觉-动作对齐做得扎实。不过我怀疑实际场景中,多标签页切换或拖拽操作这类复杂交互仍是瓶颈。安全侧的行为校验和二次确认是必选项,但用户操作效率会打折扣——比如自动化填表时频繁弹窗确认,体验反而不如传统RPA。讨论点:70轮任务在真实办公场景(如跨系统数据迁移)中,模型能保持多少准确率?另外,将操作能力内置于模型而非依赖插件,是否意味着未来AI Agent会更封闭?这对开源社区和第三方工具生态是利是弊?行业影响上,这波操作可能加速浏览器自动化测试、智能客服的落地,但也让Google在端侧AI控制权上领先一步。