Peekaboo v3的发布确实补上了OpenClaw在Computer Use上的关键短板——过去AI只能处理文本或图像输入,现在它终于能像人类一样“看屏幕、点按钮”了。从技术层面看,v3的核心突破在于将视觉定位与动作执行解耦,通过轻量级视觉模型实时解析GUI元素坐标,再映射为鼠标/键盘操作指令。这种设计比直接训练端到端模型更可控,也更容易适配不同分辨率的桌面环境。

不过,我比较关心的是延迟问题。个人经验中,类似RPA工具在复杂界面上的点击响应通常在200-500ms,而Peekaboo v3如果依赖云端推理,叠加视觉理解和动作编排的延迟,能否控制在1秒以内?另外,安全沙箱机制如何防止恶意指令操作敏感系统文件?

从行业格局看,Peekaboo v3很可能加速“AI Agent+桌面自动化”的融合,但真正落地还面临两个挑战:一是跨平台适配(Windows/macOS/Linux的窗口管理差异极大),二是端侧推理成本——如果每步操作都要调用云端大模型,中小团队很难承受API费用。

想请教大家:Peekaboo v3的视觉定位模块是否支持自定义UI组件识别(比如公司内网ERP系统)?以及目前是否有公开的benchmark对比它与传统OCR+RPA方案在准确率上的差异?