网购快递被偷,客服排队预计25分钟,你会怎么办?OpenAI的开发者体验工程师Jason Liu选择了第三种方案:把这件事交给Codex。他设置了一条简单指令——每5分钟检查一次聊天窗口,如果客服上线则改为每分钟检查一次,尽量完成退款。然后他去洗澡了,回来时Codex已经把钱要了回来。整个过程没写一行代码,一个Agent就这样悄无声息地替人类完成了一次繁琐的客服沟通。
这背后是OpenAI在Codex上重点推进的一项能力:让AI真正获得操作电脑的能力。Codex现在拥有三种「电脑操作能力」:Computer Use、Chrome插件和应用内浏览器。很多人会疑惑,为什么一个Agent需要三套电脑操作系统?实际上,这背后是OpenAI设计的一套行动权限体系。不同的操作模式对应不同的场景:能用插件就不要点网页,能直接调用API就别让AI用识屏操作界面。就像微信如果有接口,AI发送消息只需一次函数调用;如果没有接口,Codex就得打开微信、找到消息、选择联系人、点击输入框、复制内容再发送。效率和可靠性完全不在一个量级。
Computer Use是三者中能力最「大」的,也是兜底方案。它能看屏幕、操作几乎任何图形界面、使用键盘菜单和剪贴板,即使没有API的软件也能用。代价是慢——它需要先看清界面、判断点哪里、等App反应、再看下一屏,视觉循环相当浪费时间。但它最适合那些只有图形界面、没有接口的软件。在Mac上,它能在后台安静操作授权的App,用户该干嘛干嘛,回头一看它已经默默跑完了流程。Jason Liu的退款案例就是典型应用:让Codex慢慢找到和客服聊天的方法,然后自己去洗澡。
不过,Computer Use也是三者中最宽的一道信任边界,相当于把整台桌面交了出去。OpenAI官方反复提醒,一次只给一个明确的App或流程,不相关的敏感软件该关就关,涉及钱、账户、密码、隐私、系统安全的操作,用户还是得守在旁边。对于开发者来说,理解这三种操作模式的适用场景至关重要:Chrome插件适合浏览器内的任务,应用内浏览器适合特定App的交互,Computer Use则作为全能兜底方案。随着Agent能力越来越强,我们正在进入一个「洗个澡就能搞定退款」的时代,但如何平衡效率与安全,仍是每个AI从业者需要思考的课题。