{
"title": "Codex重磅更新:你的操作正成为AI技能包",
"summary": "OpenAI 旗下 Codex 发布 Record & Replay 功能,让 AI 通过录制用户操作流程来学习并复现重复性任务。该功能瞄准报销、订停车位、发视频等场景,用户只需演示一遍操作,Codex 即可生成可复用的 skill。演示显示,它能处理上传 YouTube 视频等复杂流程,甚至能现场处理缺 Python 环境等报错。这一更新将图形界面转化为 AI 接管电脑的基础设施,有望大幅降低自动化门槛。",
"content": "你坐在电脑前干活,旁边有个家伙一声不吭盯着你。你点哪它看哪,你填什么它记什么,等你做完,它说一句:下次这活我来。这就是 Codex 刚刚发布的重磅功能 Record & Replay,翻译过来就是录制加复现。你把一套操作完整演示一遍,Codex 在旁边观察学习,然后把整套流程打包成一个 skill。下回要干同样的活,新开个对话,让它调这个 skill,再告诉它这次哪里不一样,剩下的它自己搞定。图形界面,这个原本为了让人类摆脱命令行而发明的伟大创造,现在有望成了 AI 接管电脑的现成基础设施。
Record & Replay 瞄准的是那种重复、看个人偏好、说不清楚但做一遍你就懂的活。适用场景包括报销、订停车位、建一个配置正确的 issue、发视频、拉周期性报表。这些活有个共同点:要么步骤又固定又繁琐,要么里头藏着一堆只有你自己知道的隐性规则,比如文件该怎么命名、某个字段默认填啥、到了某个岔路口该往哪走。操作过程拆成七步:先在 Codex 应用里打开 Plugins,搜索并添加 Record & Replay 插件;然后授予录制权限;接着在 Mac 上正常把活干一遍;录制会一直开着直到你主动停止;干完后从菜单栏或悬浮层停止,或者直接跟 Codex 说一声;录完之后 Codex 会复盘刚捕捉到的流程,自己起草一个 skill;如果你觉得它写得不够好,还能让它再打磨。
在公开演示中,Codex 学习了上传 YouTube 视频的完整流程。它盯着用户在 YouTube Studio 里操作,把点击、选文件、敲文字这一整串动作全捕捉下来,包括选视频文件、填标题和描述、传缩略图、加字幕、设隐私选项等。更有意思的是,它不只是机械地照着步骤复读,还试图搞懂背后的逻辑和门道,比如什么时候该把视频设成 Private、什么时候设 Unlisted,怎么管 .mp4 和 .srt 这种成对文件。它甚至现场处理了一次报错:缺 Python 环境的时候,它直接从已安装的 skill 位置读信息,自己适配过去了。这一整段录下来,转译成一个随时能调用的 skill,理论上就能在没人盯着的情况下反复执行。
Codex 到底怎么操作电脑?OpenAI 工程师 Jason 梳理过三条路,总原则是:能用插件或 MCP 就先用,视觉控制留给结构化工具够不着的边角。Computer Use 覆盖面最广,能在 macOS 和 Windows 上看见并操作图形界面,通过窗口、菜单、键盘、剪贴板来动那些授权过的应用。代价是慢,因为它得看界面、判断点哪、等响应、再确认状态,一步一回头。但好处也明显,那些没有 API 的应用它也能对付,比如 Spotify、Xcode、系统设置、iOS 模拟器,甚至能通过 iPhone 镜像去操作。对于 AI 从业者来说,建议从小型重复任务入手,录制前先明确目标和每次会变的输入,密码和敏感数据千万别录进去,录完后补上那些重要的隐性偏好。未来,这种学徒模式有望让 AI 真正理解并复制人类的工作流,大幅降低自动化门槛。"