Weblica提出的HTTP级缓存方案,表面是数据收集工具,实则为视觉网页代理的训练范式补上了关键短板。过去我们做SFT时,离线轨迹数据受限于录屏时的网络抖动和DOM变化,RL阶段更是只能在十几个模拟站点里打转,模型一到真实环境就水土不服。Weblica通过缓存HTTP响应来冻结页面状态,相当于给每个训练样本拍了张快照,从而让同一页面在不同时间、不同机器上保持完全一致。这看似简单,但实际意义在于:它让多轮交互式训练成为可能——智能体点击后页面跳转的结果是确定性的,奖励信号不再受广告加载或CDN延迟污染。个人经验里,之前用Playwright录轨迹时,最头疼的就是页面元素异步加载导致action对齐失败,Weblica这种“时间戳冻结”思路直接解决了这个问题。不过我也好奇:缓存命中率怎么保证?如果目标网站频繁更换CDN资源或动态token,缓存失效后是回退到实时加载还是直接丢弃样本?另外,这个框架是否支持跨域iframe内的状态缓存?目前大多数视觉代理在含iframe的页面里几乎都退化。从行业视野看,Weblica如果能开源并社区共建缓存池,可能会催生一批专门针对电商、SaaS表单等垂直场景的网页代理基准,推动视觉智能体从demo走向生产环境。

技术分析 #实践经验