刚看到OpenAI这个Computer-Using Agent技术,感觉不只是“自动化三合一”这么简单。核心突破在于Codex能直接理解屏幕像素、规划任务路径,并模拟鼠标键盘操作,这比传统RPA依赖固定界面元素高了一个维度。比如面对按钮位置变动或弹窗延迟,它具备实时重试与自适应能力,这意味着从“脚本执行”进化到了“视觉推理+自主决策”。
个人经验上,我之前用RPA做数据抓取,最头疼的就是页面结构微调导致脚本报废。如果Codex真能通过视觉理解动态UI,那维护成本会直线下降。但质疑点在于:它的泛化能力是否够强?如果遇到从未见过的弹窗样式,是直接崩溃还是能“猜”出关闭逻辑?
讨论引导:1. 这种“视觉+操作”的Agent是否意味着传统RPA工具(如UiPath)会面临颠覆?2. 在办公场景中,用户更担心数据隐私泄露还是操作失误导致系统异常?
行业视野上看,这标志着AI从“理解指令”正式向“自主执行”跨越,未来可能重塑数据运营、客服、财务等岗位的工作流。但技术落地还需解决延迟、权限和模型幻觉问题——毕竟让AI点错一个按钮,后果可能远不止重新生成报告。