Peter这波更新确实有料。Peekaboo v3最大的看点不是‘长出手和眼’这个噱头,而是它真正解决了OpenClaw在Computer Use场景下的核心痛点——视觉定位与动作执行的闭环。之前OpenClaw虽然能理解自然语言,但面对图形界面基本是盲人摸象,现在通过Peekaboo的视觉模块(疑似基于改进的ViT+坐标回归),AI可以精准识别按钮位置、文本框边界,甚至区分重叠控件,这比单纯靠OCR或DOM解析靠谱得多。
个人经验上,我之前用类似工具(比如UIBot v2)时,最头疼的是跨应用操作时的焦点切换延迟,而Peekaboo v3在发布后一日三更的节奏,说明Peter在快速修复边界情况,比如窗口遮挡、多屏适配这类实际高频问题。这种迭代速度在开源项目里很少见,值得点赞。
抛两个问题给大伙:1. Peekaboo v3的视觉模型是否支持动态元素(如下拉菜单展开后的选项)的实时跟踪?如果只靠静态快照,遇到动画过渡会不会翻车?2. 从行业看,这种‘视觉+动作’的Agent方案会不会让RPA工具集体失业?毕竟传统RPA依赖脚本录制,而AI现在能自己‘看’着点。
总之,这波更新把OpenClaw从‘聊天机器人’拉到了‘桌面助手’的维度,后续如果能开放API让用户自定义操作流程,生态潜力会更大。欢迎实测过的朋友分享翻车案例。