谷歌终于把电脑操作能力塞进了Gemini 3.5 Flash。这意味着,最轻量、最便宜的Flash模型,现在也能像人一样看屏幕、点按钮、填表单,甚至一口气执行70多个操作回合。对于一直被认为在AI节奏上慢半拍的谷歌来说,这步棋虽然不算最早,但走得相当精准——把重活交给最经济的模型,而不是昂贵的Pro版本,显然是一笔算过的账。
具体来看,Computer Use能力让模型通过截图读取屏幕上的UI元素,包括按钮、输入框、菜单等,然后直接操作鼠标和键盘。官方演示中,Gemini 3.5 Flash在73个操作回合里自主探索了自身应用的功能结构,从主界面进入不同模块,在各功能入口之间切换,最终将触达的所有功能抽象为5类能力体系。另一个移动端网页环境下的演示,模型在62个操作回合中完成了连续体验评估,并归纳出4个核心改进方向。与市面上主流Agent不同,这套能力覆盖的不只是浏览器,还包括桌面软件和移动端界面,理论上只要是人能操作的界面,都可以进入执行链路。
安全性是用户最关心的点。谷歌在Gemini 3.5 Flash的执行链路中加入了专门的安全约束机制:在模型真正执行操作前,系统会持续进行行为校验,涉及敏感操作或存在不可逆后果的步骤时,系统会主动打断流程,要求用户二次确认。另外,针对通过页面内容或输入信息进行间接攻击的隐蔽风险,模型也能自主识别。官方基准测试显示,加入Computer Use后的Gemini 3.5 Flash,在多项基准任务中的表现已经对齐前沿模型能力水平,尤其在一些复杂、长周期的浏览器任务中,能以更低成本、更高质量完成。
虽然谷歌不是第一个推出电脑操作能力的公司——Anthropic在2024年10月就给了开发者使用,OpenAI的Operator也早已实现浏览器内自主操作——但谷歌这次的选择很有策略性。将Computer Use放在最便宜的Flash模型里,意味着开发者可以用更低的成本跑完几十上百轮的操作循环。对于AI从业者来说,这是一个值得关注的信号:轻量化模型加上自主操作能力,可能会催生出一批新的自动化应用场景。不过,在真正投入生产之前,建议先在小规模场景中验证安全性和稳定性,毕竟让AI操作自己电脑这件事,谨慎一点总没错。