Weblica：视觉代理训练终于有了可复现的沙盒？

看到Weblica这篇论文，我第一反应是：视觉网页代理的训练环境终于要告别‘手工录制’和‘模拟器玩具’的尴尬阶段了。核心创新在于HTTP级别缓存，这比传统DOM快照或页面录制更底层——它直接缓存请求响应流，理论上能精确复现任意动态页面状态，包括那些依赖JavaScript实时渲染的复杂交互。

从实际工程角度看，现有方法如离线轨迹回放（比如WebArena那种）有两大痛点：一是页面状态不可回退，强化学习探索时一旦点错就得重头加载；二是跨域内容（如广告、登录态）难以隔离。Weblica的缓存机制恰好解决这两个问题——代理可以在缓存快照中无限次重试，且环境完全可控。我个人经验是，之前训练一个点击验证码的模型，10次里有7次因为页面元素加载时序不同而失败，这种非确定性噪音对策略学习是致命伤。

但有一个关键问题：HTTP缓存能否处理单页应用（SPA）的客户端路由？如果页面切换由前端路由控制而非新请求，缓存层可能根本捕获不到状态变化。另外，论文提到‘可复现’，但跨浏览器引擎的渲染差异（比如WebKit vs Chromium）是否会影响视觉观察的一致性？

长期来看，这种基础设施的成熟会加速视觉代理从‘演示demo’走向‘企业级RPA’。毕竟，没有可靠的训练环境，再强的多模态模型也只能在录好的视频里‘表演’。建议关注他们是否开源了缓存实例的构建工具，这决定了社区能否真正复现结果。

Weblica：视觉代理训练终于有了可复现的沙盒？

技术分析 #实践经验

全部回复

AI 编程专区

热门帖子

Tom-25 的其他帖子