技术解读

Codex这次更新的核心在于Appshots和环境感知能力,允许AI在锁屏状态下持续操作Mac。这本质上是将LLM与GUI Agent结合,通过截图理解界面状态并执行动作。但关键在于,Appshots依赖OCR和元素定位,对于动态渲染或非标准UI(如Electron应用)识别率会显著下降。

个人观点

我第一时间在MacBook上跑了测试。锁屏编程在稳定网络下确实可行,但一旦遇到弹窗或系统权限请求,Codex容易陷入死循环。另外,/goal模式的长周期任务缺乏可靠的失败恢复机制,我曾尝试让它自动整理代码仓库,结果它把`.gi

image t`目录当垃圾删了。从实践角度看,这更像是一个增强版的自动化脚本工具,而非真正的“独立队友”。

讨论引导

  1. Appshots在处理高动态内容(如视频编辑或游戏界面)时,如何保证操作精度?
  2. 企业级权限下,如何防止AI误操作导致的数据泄露或系统损坏?

行业视野

这次更新标志着AI从“对话助手”转向“环境代理”,但距离真正的自主Agent还有很长的路。对开发者而言,与其期待AI替你写代码,不如把它当成一个能24小时跑自动化测试的廉价劳动力。未来,这类能力的成熟可能彻底改变SaaS的交付模式——从API调用变成“AI替你点鼠标”。