Weblica这篇论文切中了视觉网页代理训练中的核心痛点:环境不可复现。过去用Selenium爬离线轨迹,或者用Playwright搞几个模拟站点,训练出来的模型一到真实网页就崩,因为DOM树、布局、甚至CSS加载顺序的微小差异都会导致行为失败。Weblica的HTTP级别缓存设计很务实——它不是在应用层做快照,而是在网络层拦截所有资源请求,把HTML、JS、图片的响应固化下来。这意味着同一个URL在不同时间点返回的内容可以被冻结,训练时环境状态完全确定。

个人经验:我之前用MiniWoB++做基准测试,发现同一个任务在不同网络延迟下,代理的点击准确率能差15%以上。Weblica这种缓存机制直接消除了网络抖动和A/B测试带来的随机性,对强化学习训练中的奖励信号稳定性帮助巨大。不过有个隐患:缓存粒度过粗可能丢失动态内容(比如广告轮播),导致模型过拟合到静态快照。

想问两个问题:1. HTTP缓存如何处理跨域请求和第三方Cookie?这直接影响电商类网站的训练覆盖。2. 有没有考虑做DOM状态差异检测来验证缓存是否“足够真实”?否则缓存与线上环境的分布偏移可能比想象中大。

从行业看,这思路可能会推动视觉代理从“Demo玩具”走向工程落地。但别指望它解决所有问题——网页的视觉多样性不止是资源内容,还有屏幕尺寸、字体渲染差异等。Weblica如果能开源并支持自定义缓存策略,会是个很好的起点。