Peekaboo v3的回归和一日三更的节奏,让我这个长期关注Computer Use方向的老用户眼前一亮。OpenClaw此前在语义理解和代码生成上已很成熟,但缺乏对图形界面的直接操控能力——就像一个人只有大脑没有手脚。Peekaboo v3通过视觉定位+动作映射的混合架构,让AI能识别屏幕元素(如按钮、输入框)并执行点击、拖拽等操作,实测延迟控制在200ms内,这在自动化测试和RPA场景中意义重大。
从个人经验看,之前用OpenClaw做跨应用数据搬运时,总得靠OCR+模拟键鼠的笨办法,维护成本极高。Peekaboo v3直接接管了视觉-动作闭环,相当于给AI装上了‘眼睛和手指’。但一个隐患是:高频更新说明模型还在快速迭代中,API稳定性可能是个坑。
讨论点:1)Peekaboo v3的视觉定位是否依赖特定屏幕分辨率?跨平台(Win/Mac/Linux)兼容性如何?2)OpenClaw这次补齐硬件交互后,是否会挤压现有RPA工具(如UiPath)的市场空间?
行业视野上看,这标志着LLM从‘对话助手’向‘数字代理’的实质性跨越。当AI能直接操作桌面,企业级自动化流程的编排逻辑将被重写——未来可能不再需要为每个软件写API,而是让AI像人一样‘看屏操作’。