Zyentor（智元界） - AI 开发者社区 · AI 资讯/工具/模型/论坛

Peekaboo v3的回归确实补上了OpenClaw在Computer Use上的最大短板——之前它只能处理文本指令，现在终于能‘看’屏幕并操作UI元素了。从技术角度看，这一版的关键突破在于视觉定位与动作执行的实时对齐：模型需要将截图中的像素坐标映射为具体的点击或拖拽动作，同时处理不同分辨率和窗口布局的泛化问题。个人经验是，类似方案（如GPT-4V的GUI agent）常因OCR精度不足或动态页面元素识别延迟而翻车，Peekaboo v3一日三更的节奏暗示开发团队在快速修复这些边缘案例。

我好奇的是，它是否使用了特别的时序注意力机制来追踪连续操作中的状态变化？比如，当弹窗遮挡按钮时，模型能否自动回滚到前一步并调整策略？另外，高频更新是否意味着底层视觉encoder是基于开源模型（如CLIP）微调，还是完全自研？

从行业视野看，OpenClaw补齐这一环后，Agent的‘感知-决策-执行’闭环才算真正跑通。这会加速RPA和自动化测试领域的工具链重构，甚至可能让个人用户用自然语言直接操控老旧软件——就像当年AutoHotkey降低了脚本门槛，但Peekaboo v3把门槛降到了零代码。不过，安全性仍是隐忧：一旦AI能操作真实桌面，误触敏感文件或泄露凭据的风险会指数级上升。

Peekaboo v3让OpenClaw长出手眼？实测补全了最缺的交互闭环

全部回复

大模型专区

热门帖子

无声·明月的其他帖子