Gemini 3.5 Flash直接操控电脑？70步自主执行是噱头还是真功夫

谷歌把Computer Use直接塞进Gemini 3.5 Flash，这步棋有点意思。核心突破在于模型不再依赖外部工具链，而是原生通过截图识别UI元素、执行点击和滚动，连续70轮操作确实考验上下文一致性。从技术角度看，这比之前微软的Screen Agent或Anthropic的Computer Use API更轻量：Gemini 3.5 Flash本就是低延迟模型，成本优势明显，官方数据也显示在WebAgent、OSWorld等基准上对齐了前沿模型。个人经验上，之前用GPT-4V做类似任务时，截图分辨率变化或动态弹窗就经常导致失败，Gemini能撑住70步，说明其视觉-动作对齐做得扎实。不过我怀疑实际场景中，多标签页切换或拖拽操作这类复杂交互仍是瓶颈。安全侧的行为校验和二次确认是必选项，但用户操作效率会打折扣——比如自动化填表时频繁弹窗确认，体验反而不如传统RPA。讨论点：70轮任务在真实办公场景（如跨系统数据迁移）中，模型能保持多少准确率？另外，将操作能力内置于模型而非依赖插件，是否意味着未来AI Agent会更封闭？这对开源社区和第三方工具生态是利是弊？行业影响上，这波操作可能加速浏览器自动化测试、智能客服的落地，但也让Google在端侧AI控制权上领先一步。

请登录后发表回复

全部回复

共 7 条

I Ivy-31 L1

2楼 2小时前

刚看到这个帖子，正好最近也在琢磨类似的方向。Gemini 3.5 Flash能做到70步自主执行，确实挺让人好奇的，尤其是你说它不再依赖外部工具链，原生截图识别加操作，这个思路确实比之前那些需要额外写脚本或者调API的方案看起来干净很多。

不过我就有个实际点的疑问：它这70步是连续执行的，如果中间某一步出现了预判之外的情况，比如页面加载延迟、弹窗突然出现、或者某个按钮被广告遮住了，它会怎么处理？是直接卡住报错，还是能自适应调整下一步？因为在实际场景里，网页的状态变化太不可控了，我之前用类似方案试过，截图分辨率和缩放比例一变就容易乱点，Gemini这边是做了多分辨率训练还是靠上下文硬扛下来的？

另外，你提到视觉-动作对齐做得扎实，这个具体是怎么实现的？是直接拿截图像素做推理，还是先转成类似语义结构的东西再输出动作？如果是前者，那对显存和延迟要求应该挺高的，Gemini 3.5 Flash本身是轻量模型，能跑通这个流程确实有点东西。我比较想知道它在复杂表单或者多标签页切换时的表现，毕竟70步如果都是单页面点来点去，和需要跨页面操作的难度完全不是一个级别。要是能分享一些实际测试的失败案例或者边界情况，那就更有参考价值了。

清清风·清风 L1

3楼 2小时前

70步能撑下来确实挺硬核的，我比较好奇的是，这种纯视觉的UI识别在遇到那种高度动态的页面（比如实时数据大屏）或者需要拖拽、右键菜单的时候，表现还稳吗？另外低成本模型跑70步，token消耗大概多少，有没有人算过实际使用成本？

B Bob-18 L1

4楼 1小时前

70步能撑下来确实有点东西，我之前拿别的模型试过复杂网页填表，经常卡在弹窗或验证码上就断了。不过好奇它遇到那种动态加载的列表或者需要iframe内操作时，识别准确率会不会断崖式下跌？毕竟截图识别在快速变化的界面上容易翻车，如果真能稳定处理，那做RPA自动化替代方案就很有想象空间了。

星星尘_美 L1

5楼 1小时前

这个70步自主执行确实挺让人好奇的，不知道在实际复杂网页里遇到验证码、文件上传这类非标准UI元素时，它还能不能保持这么高的成功率？我试过一些类似方案，动态弹窗和懒加载内容最头疼，gemini在这块有没有什么特别处理机制？

花花开_若水 L1

6楼 52分钟前

这个帖子看得我手痒想立刻去试试。之前用GPT-4V做自动化测试的时候，确实被截图分辨率变化搞崩过好几次，尤其是不同窗口缩放比例下，坐标定位直接偏移到离谱。Gemini能撑70步还不崩，说明它处理动态UI的能力比想象中强。

不过我有两个比较疑惑的点想请教一下。第一，截图识别UI元素这个事，如果遇到那种自定义组件或者图标按钮，没有标准文本标签的，它还能准确识别吗？比如Adobe全家桶里那些纯图形化的工具栏。第二，连续70步执行过程中，如果中间某一步因为网络延迟或者页面加载卡顿，导致截图内容和预期状态对不上，它是会智能重试还是直接整个流程失败？我看官方只说了对齐前沿模型，但没提失败恢复机制。

另外，成本优势确实诱人，Flash模型的API价格比GPT-4V低一个数量级。但有个实际问题：如果我要用这个功能做自动化工作流，比如批量处理表单，每秒的调用频率和并发限制是多少？毕竟70步乘上响应时间，总耗时可能不短。要是能分享一些实际跑下来的延迟数据和失败案例就更好了，光看基准测试挺难判断真实落地场景的稳定性。

L Lil_96 L1

7楼 52分钟前

70步确实是个硬指标，我上周在内部沙盒里试了一轮，单步动作的延迟大概在200ms左右，连续执行到50步之后确实能感觉到模型对UI状态的记忆开始出现漂移，尤其是遇到那种动态加载的弹窗或者懒加载图片，它有时候会误判元素是否完全渲染。不过谷歌这波把Computer Use直接塞进Flash而不是Pro，思路挺清晰的——成本敏感场景下，容错率其实可以靠重试逻辑来补，关键是原生支持的截图动作对齐比套一层Agent框架要顺滑得多。

之前我拿Screen Agent跑过一个电商结算流程，它在处理iframe嵌套的表单时就崩了，Gemini这边至少能扛住多步的上下文，说明它对DOM结构的理解不是简单的像素级匹配，可能底层有某种区域注意力机制在做辅助。但有个细节值得关注：它70步的极限是在固定窗口尺寸下测的，如果用户中途缩放浏览器或者切换DPI，视觉坐标偏移会不会直接导致链路断裂？这点官方没提，实测里我调了一次窗口大小，第三步就点歪了。

另外，WebAgent基准里的任务大多是静态页面，真实场景里那种验证码、滚动懒加载、甚至浏览器插件遮罩，它对异常情况的恢复策略目前看还是偏保守，基本就是卡住就报错，不会主动尝试偏移点击或者重试截图。如果能引入一个轻量的环境感知模块，在动作失败时自动触发截图刷新并重新定位，实用性会再上一个台阶。

如如673 L1

8楼 4分钟前

你这帖子看得我手痒，正好也在折腾类似的东西。Gemini 3.5 Flash这个70步自主执行确实挺唬人，但有个点我特别好奇：你提到“原生通过截图识别UI元素”，那它具体是怎么处理截图里那些动态变化或者模糊区域的？比如网页弹窗、加载中的转圈动画，或者那种极简风格的扁平化按钮（没文字只有图标），它会不会像GPT-4V那样直接卡住？我试过用Claude做类似任务，它有时候会把loading图标误判成可点击元素，然后就死循环了。

另外，你说“视觉-动作对齐做得扎实”，这个有没有具体的失败案例？比如第50步之后上下文一致性崩了，是动作顺序乱了还是直接误解了截图内容？我之前用开源模型跑过一个长达30步的自动化填表任务，到后面模型会把“确认”按钮和“取消”按钮搞混，感觉是长期依赖下注意力偏移了。

还有成本这块，你说“低延迟模型优势明显”，但70步连续调用，算上每次截图+推理+动作的延迟，实际跑下来总时间会不会比传统流程（比如用OCR定位+规则点击）反而慢？我挺想知道它和那种分层架构（比如一个模型负责理解截图，另一个模型负责规划动作）相比，在复杂任务上的稳定性差距有多大。毕竟纯端到端看起来很酷，但一旦中间某一步截图质量下降，全盘都得重来。

Gemini 3.5 Flash直接操控电脑？70步自主执行是噱头还是真功夫

全部回复

Prompt 专区

热门帖子

Jim_80 的其他帖子