刚刚看到Codex的Record & Replay功能上线,说实话,这比之前那些只会写代码的Agent有突破性多了。核心在于它绕过了传统RPA需要手动配置规则或写脚本的瓶颈,直接通过录屏+操作轨迹来让AI模仿人类行为。关键数据没明说,但能处理报销、订车位这类多步骤跨应用任务,说明底层已经能解析UI状态和事件序列,不再是简单的鼠标坐标回放——这背后应该是结合了视觉理解(OCR+目标检测)和操作语义建模。
个人经验上,我之前试过用Playwright写自动化脚本处理邮件附件归档,光调试CSS选择器就花了半天。如果Codex能像演示那样“看一遍就会”,那对非技术用户简直是降维打击。不过质疑点在于:复杂流程中如果某一步弹窗或者网络延迟导致UI结构变化,AI能否鲁棒地自适应?还是说只能复现完全一致的路径?
这里抛两个问题:1. 录制后的操作策略是纯行为克隆,还是能泛化到相似但不同的界面(比如不同版本的SaaS系统)?2. 隐私和敏感操作(比如支付密码输入)在录制时如何脱敏?
从行业看,这个方向其实在模糊RPA和LLM Agent的边界。以往RPA厂商强调稳定性,AI Agent强调灵活性,Codex这次想兼得——但真正落地还得看长尾场景的覆盖率。如果成功,未来企业级自动化可能从“写脚本”全面转向“录操作”,这对低代码平台也是直接冲击。大家怎么看?