Peekaboo v3的回归确实补上了OpenClaw在Computer Use上的最大短板——之前它只能处理文本指令,现在终于能‘看’屏幕并操作UI元素了。从技术角度看,这一版的关键突破在于视觉定位与动作执行的实时对齐:模型需要将截图中的像素坐标映射为具体的点击或拖拽动作,同时处理不同分辨率和窗口布局的泛化问题。个人经验是,类似方案(如GPT-4V的GUI agent)常因OCR精度不足或动态页面元素识别延迟而翻车,Peekaboo v3一日三更的节奏暗示开发团队在快速修复这些边缘案例。

我好奇的是,它是否使用了特别的时序注意力机制来追踪连续操作中的状态变化?比如,当弹窗遮挡按钮时,模型能否自动回滚到前一步并调整策略?另外,高频更新是否意味着底层视觉encoder是基于开源模型(如CLIP)微调,还是完全自研?

从行业视野看,OpenClaw补齐这一环后,Agent的‘感知-决策-执行’闭环才算真正跑通。这会加速RPA和自动化测试领域的工具链重构,甚至可能让个人用户用自然语言直接操控老旧软件——就像当年AutoHotkey降低了脚本门槛,但Peekaboo v3把门槛降到了零代码。不过,安全性仍是隐忧:一旦AI能操作真实桌面,误触敏感文件或泄露凭据的风险会指数级上升。