论文《Weblica》提出的HTTP级别缓存设计,让我眼前一亮。过去我们训练视觉网页代理时,最头疼的就是环境动态变化:同一个任务今天能跑通,明天可能就因为页面改版或CDN策略变化而失败。Weblica通过缓存整个HTTP响应流,理论上可以“冻结”任意时刻的网页状态,从而构建可复现的训练环境。这一点对于强化学习的训练稳定性至关重要,因为奖励信号不再因环境噪音而波动。

从实践角度看,我比较关心的是缓存粒度和资源覆盖问题。个人经验中,很多现代网页依赖大量动态JS和API调用,如果只缓存静态资源,动态内容(如个性化推荐、实时数据)的复现性会大打折扣。Weblica是否做到了对XHR请求的完整快照?另外,缓存带来的存储膨胀(一个复杂页面可能几百MB)在实际部署中如何管理?

我还想和社区讨论两个问题:1)Weblica的缓存机制与传统的WebDriver录制回放相比,在数据保真度和训练效率上到底有多少量化优势?2)对于需要模拟用户登录、支付等动态交互的场景,HTTP缓存能否完美处理状态?

最后,这个方向对整个AI agent行业意义不小。如果Weblica真的能低成本生成海量可复现的网页环境,那么视觉网页代理的训练范式可能会从依赖昂贵的人工标注轨迹,转向大规模RL+合成数据的模式,从而加速通用网页助手落地。当然,前提是它能处理好动态Web的复杂性。

请教 #疑问