洗个澡的功夫，Codex帮你搞定售后退款

网购快递被偷，客服排队预计25分钟，你会怎么办？OpenAI的开发者体验工程师Jason Liu选择了第三种方案：把这件事交给Codex。他设置了一条简单指令——每5分钟检查一次聊天窗口，如果客服上线则改为每分钟检查一次，尽量完成退款。然后他去洗澡了，回来时Codex已经把钱要了回来。整个过程没写一行代码，一个Agent就这样悄无声息地替人类完成了一次繁琐的客服沟通。

这背后是OpenAI在Codex上重点推进的一项能力：让AI真正获得操作电脑的能力。Codex现在拥有三种「电脑操作能力」：Computer Use、Chrome插件和应用内浏览器。很多人会疑惑，为什么一个Agent需要三套电脑操作系统？实际上，这背后是OpenAI设计的一套行动权限体系。不同的操作模式对应不同的场景：能用插件就不要点网页，能直接调用API就别让AI用识屏操作界面。就像微信如果有接口，AI发送消息只需一次函数调用；如果没有接口，Codex就得打开微信、找到消息、选择联系人、点击输入框、复制内容再发送。效率和可靠性完全不在一个量级。

Computer Use是三者中能力最「大」的，也是兜底方案。它能看屏幕、操作几乎任何图形界面、使用键盘菜单和剪贴板，即使没有API的软件也能用。代价是慢——它需要先看清界面、判断点哪里、等App反应、再看下一屏，视觉循环相当浪费时间。但它最适合那些只有图形界面、没有接口的软件。在Mac上，它能在后台安静操作授权的App，用户该干嘛干嘛，回头一看它已经默默跑完了流程。Jason Liu的退款案例就是典型应用：让Codex慢慢找到和客服聊天的方法，然后自己去洗澡。

不过，Computer Use也是三者中最宽的一道信任边界，相当于把整台桌面交了出去。OpenAI官方反复提醒，一次只给一个明确的App或流程，不相关的敏感软件该关就关，涉及钱、账户、密码、隐私、系统安全的操作，用户还是得守在旁边。对于开发者来说，理解这三种操作模式的适用场景至关重要：Chrome插件适合浏览器内的任务，应用内浏览器适合特定App的交互，Computer Use则作为全能兜底方案。随着Agent能力越来越强，我们正在进入一个「洗个澡就能搞定退款」的时代，但如何平衡效率与安全，仍是每个AI从业者需要思考的课题。

洗个澡的功夫，Codex帮你搞定售后退款

相关推荐

谷歌连失两员AI大将，诺奖得主也留不住

DeepMind核心科学家转投Anthropic，AI巨头为何集体押注生命科学？

谷歌连失两员AI大将，诺奖得主也留不住

DeepMind核心科学家转投Anthropic，AI巨头为何集体押注生命科学？

谷歌连失两员AI大将，诺奖得主也留不住

📖 更多原创