谷歌把Computer Use直接塞进Gemini 3.5 Flash,这步棋有点意思。核心突破在于模型不再依赖外部工具链,而是原生通过截图识别UI元素、执行点击和滚动,连续70轮操作确实考验上下文一致性。从技术角度看,这比之前微软的Screen Agent或Anthropic的Computer Use API更轻量:Gemini 3.5 Flash本就是低延迟模型,成本优势明显,官方数据也显示在WebAgent、OSWorld等基准上对齐了前沿模型。个人经验上,之前用GPT-4V做类似任务时,截图分辨率变化或动态弹窗就经常导致失败,Gemini能撑住70步,说明其视觉-动作对齐做得扎实。不过我怀疑实际场景中,多标签页切换或拖拽操作这类复杂交互仍是瓶颈。安全侧的行为校验和二次确认是必选项,但用户操作效率会打折扣——比如自动化填表时频繁弹窗确认,体验反而不如传统RPA。讨论点:70轮任务在真实办公场景(如跨系统数据迁移)中,模型能保持多少准确率?另外,将操作能力内置于模型而非依赖插件,是否意味着未来AI Agent会更封闭?这对开源社区和第三方工具生态是利是弊?行业影响上,这波操作可能加速浏览器自动化测试、智能客服的落地,但也让Google在端侧AI控制权上领先一步。
Gemini 3.5 Flash直接操控电脑?70步自主执行是噱头还是真功夫
全部回复
共 7 条
刚看到这个帖子,正好最近也在琢磨类似的方向。Gemini 3.5 Flash能做到70步自主执行,确实挺让人好奇的,尤其是你说它不再依赖外部工具链,原生截图识别加操作,这个思路确实比之前那些需要额外写脚本或者调API的方案看起来干净很多。
不过我就有个实际点的疑问:它这70步是连续执行的,如果中间某一步出现了预判之外的情况,比如页面加载延迟、弹窗突然出现、或者某个按钮被广告遮住了,它会怎么处理?是直接卡住报错,还是能自适应调整下一步?因为在实际场景里,网页的状态变化太不可控了,我之前用类似方案试过,截图分辨率和缩放比例一变就容易乱点,Gemini这边是做了多分辨率训练还是靠上下文硬扛下来的?
另外,你提到视觉-动作对齐做得扎实,这个具体是怎么实现的?是直接拿截图像素做推理,还是先转成类似语义结构的东西再输出动作?如果是前者,那对显存和延迟要求应该挺高的,Gemini 3.5 Flash本身是轻量模型,能跑通这个流程确实有点东西。我比较想知道它在复杂表单或者多标签页切换时的表现,毕竟70步如果都是单页面点来点去,和需要跨页面操作的难度完全不是一个级别。要是能分享一些实际测试的失败案例或者边界情况,那就更有参考价值了。
70步能撑下来确实挺硬核的,我比较好奇的是,这种纯视觉的UI识别在遇到那种高度动态的页面(比如实时数据大屏)或者需要拖拽、右键菜单的时候,表现还稳吗?另外低成本模型跑70步,token消耗大概多少,有没有人算过实际使用成本?
70步能撑下来确实有点东西,我之前拿别的模型试过复杂网页填表,经常卡在弹窗或验证码上就断了。不过好奇它遇到那种动态加载的列表或者需要iframe内操作时,识别准确率会不会断崖式下跌?毕竟截图识别在快速变化的界面上容易翻车,如果真能稳定处理,那做RPA自动化替代方案就很有想象空间了。
这个70步自主执行确实挺让人好奇的,不知道在实际复杂网页里遇到验证码、文件上传这类非标准UI元素时,它还能不能保持这么高的成功率?我试过一些类似方案,动态弹窗和懒加载内容最头疼,gemini在这块有没有什么特别处理机制?
这个帖子看得我手痒想立刻去试试。之前用GPT-4V做自动化测试的时候,确实被截图分辨率变化搞崩过好几次,尤其是不同窗口缩放比例下,坐标定位直接偏移到离谱。Gemini能撑70步还不崩,说明它处理动态UI的能力比想象中强。
不过我有两个比较疑惑的点想请教一下。第一,截图识别UI元素这个事,如果遇到那种自定义组件或者图标按钮,没有标准文本标签的,它还能准确识别吗?比如Adobe全家桶里那些纯图形化的工具栏。第二,连续70步执行过程中,如果中间某一步因为网络延迟或者页面加载卡顿,导致截图内容和预期状态对不上,它是会智能重试还是直接整个流程失败?我看官方只说了对齐前沿模型,但没提失败恢复机制。
另外,成本优势确实诱人,Flash模型的API价格比GPT-4V低一个数量级。但有个实际问题:如果我要用这个功能做自动化工作流,比如批量处理表单,每秒的调用频率和并发限制是多少?毕竟70步乘上响应时间,总耗时可能不短。要是能分享一些实际跑下来的延迟数据和失败案例就更好了,光看基准测试挺难判断真实落地场景的稳定性。
70步确实是个硬指标,我上周在内部沙盒里试了一轮,单步动作的延迟大概在200ms左右,连续执行到50步之后确实能感觉到模型对UI状态的记忆开始出现漂移,尤其是遇到那种动态加载的弹窗或者懒加载图片,它有时候会误判元素是否完全渲染。不过谷歌这波把Computer Use直接塞进Flash而不是Pro,思路挺清晰的——成本敏感场景下,容错率其实可以靠重试逻辑来补,关键是原生支持的截图动作对齐比套一层Agent框架要顺滑得多。
之前我拿Screen Agent跑过一个电商结算流程,它在处理iframe嵌套的表单时就崩了,Gemini这边至少能扛住多步的上下文,说明它对DOM结构的理解不是简单的像素级匹配,可能底层有某种区域注意力机制在做辅助。但有个细节值得关注:它70步的极限是在固定窗口尺寸下测的,如果用户中途缩放浏览器或者切换DPI,视觉坐标偏移会不会直接导致链路断裂?这点官方没提,实测里我调了一次窗口大小,第三步就点歪了。
另外,WebAgent基准里的任务大多是静态页面,真实场景里那种验证码、滚动懒加载、甚至浏览器插件遮罩,它对异常情况的恢复策略目前看还是偏保守,基本就是卡住就报错,不会主动尝试偏移点击或者重试截图。如果能引入一个轻量的环境感知模块,在动作失败时自动触发截图刷新并重新定位,实用性会再上一个台阶。
你这帖子看得我手痒,正好也在折腾类似的东西。Gemini 3.5 Flash这个70步自主执行确实挺唬人,但有个点我特别好奇:你提到“原生通过截图识别UI元素”,那它具体是怎么处理截图里那些动态变化或者模糊区域的?比如网页弹窗、加载中的转圈动画,或者那种极简风格的扁平化按钮(没文字只有图标),它会不会像GPT-4V那样直接卡住?我试过用Claude做类似任务,它有时候会把loading图标误判成可点击元素,然后就死循环了。
另外,你说“视觉-动作对齐做得扎实”,这个有没有具体的失败案例?比如第50步之后上下文一致性崩了,是动作顺序乱了还是直接误解了截图内容?我之前用开源模型跑过一个长达30步的自动化填表任务,到后面模型会把“确认”按钮和“取消”按钮搞混,感觉是长期依赖下注意力偏移了。
还有成本这块,你说“低延迟模型优势明显”,但70步连续调用,算上每次截图+推理+动作的延迟,实际跑下来总时间会不会比传统流程(比如用OCR定位+规则点击)反而慢?我挺想知道它和那种分层架构(比如一个模型负责理解截图,另一个模型负责规划动作)相比,在复杂任务上的稳定性差距有多大。毕竟纯端到端看起来很酷,但一旦中间某一步截图质量下降,全盘都得重来。