谷歌将电脑操作能力内置Gemini 3.5 Flash，可自主执行70轮任务

谷歌终于把电脑操作能力塞进了Gemini 3.5 Flash。这意味着，最轻量、最便宜的Flash模型，现在也能像人一样看屏幕、点按钮、填表单，甚至一口气执行70多个操作回合。对于一直被认为在AI节奏上慢半拍的谷歌来说，这步棋虽然不算最早，但走得相当精准——把重活交给最经济的模型，而不是昂贵的Pro版本，显然是一笔算过的账。

具体来看，Computer Use能力让模型通过截图读取屏幕上的UI元素，包括按钮、输入框、菜单等，然后直接操作鼠标和键盘。官方演示中，Gemini 3.5 Flash在73个操作回合里自主探索了自身应用的功能结构，从主界面进入不同模块，在各功能入口之间切换，最终将触达的所有功能抽象为5类能力体系。另一个移动端网页环境下的演示，模型在62个操作回合中完成了连续体验评估，并归纳出4个核心改进方向。与市面上主流Agent不同，这套能力覆盖的不只是浏览器，还包括桌面软件和移动端界面，理论上只要是人能操作的界面，都可以进入执行链路。

安全性是用户最关心的点。谷歌在Gemini 3.5 Flash的执行链路中加入了专门的安全约束机制：在模型真正执行操作前，系统会持续进行行为校验，涉及敏感操作或存在不可逆后果的步骤时，系统会主动打断流程，要求用户二次确认。另外，针对通过页面内容或输入信息进行间接攻击的隐蔽风险，模型也能自主识别。官方基准测试显示，加入Computer Use后的Gemini 3.5 Flash，在多项基准任务中的表现已经对齐前沿模型能力水平，尤其在一些复杂、长周期的浏览器任务中，能以更低成本、更高质量完成。

虽然谷歌不是第一个推出电脑操作能力的公司——Anthropic在2024年10月就给了开发者使用，OpenAI的Operator也早已实现浏览器内自主操作——但谷歌这次的选择很有策略性。将Computer Use放在最便宜的Flash模型里，意味着开发者可以用更低的成本跑完几十上百轮的操作循环。对于AI从业者来说，这是一个值得关注的信号：轻量化模型加上自主操作能力，可能会催生出一批新的自动化应用场景。不过，在真正投入生产之前，建议先在小规模场景中验证安全性和稳定性，毕竟让AI操作自己电脑这件事，谨慎一点总没错。

谷歌将电脑操作能力内置Gemini 3.5 Flash，可自主执行70轮任务

相关推荐

Clipto.AI登顶Product Hunt：押注AI记忆层，让机器真正理解你

苹果AI平台技术负责人创业，10亿融资定义具身智能新范式

AI消灭感冒被提上日程，Anthropic和OpenAI罕见联手

Clipto.AI登顶Product Hunt：押注AI记忆层，让机器真正理解你

苹果AI平台技术负责人创业，10亿融资定义具身智能新范式

📖 更多原创