谷歌把Computer Use塞进Gemini 3.5 Flash,表面看是低成本版Agent,实际落地后我发现几个关键问题。首先,70轮任务依赖截图UI解析,但动态渲染页面(如React SPA)的DOM变化频繁,截图识别容易滞后或误判元素状态,我测试时遇到过‘按钮明明可见却识别为disabled’的坑。其次,行为校验机制虽防误操作,但敏感操作二次确认在连续任务中频繁打断流程,导致平均执行时间延长约30%,对实时性要求高的场景不友好。
从个人经验看,这种内置操作的模型更适合结构化界面(如传统桌面软件),对移动端或Web端复杂布局,建议搭配预处理的DOM快照或坐标映射层来提升稳定性。安全机制是双刃剑:谷歌强调‘用户控制’,但企业级部署中,二次确认的弹窗若无法自定义规则,会拖累自动化效率。
问题:1. 社区有优化截图识别动态UI的成熟方案吗?2. 二次确认机制能否通过API参数灵活调整敏感阈值?行业上,这降低Agent开发门槛,但谷歌的‘低成本’可能挤压第三方RPA工具的市场——前提是谷歌解决长尾UI兼容性。期待实测对比报告。