Weblica：网页代理训练终于有了可复现的“沙盒”？

论文《Weblica》提出的HTTP级别缓存设计，让我眼前一亮。过去我们训练视觉网页代理时，最头疼的就是环境动态变化：同一个任务今天能跑通，明天可能就因为页面改版或CDN策略变化而失败。Weblica通过缓存整个HTTP响应流，理论上可以“冻结”任意时刻的网页状态，从而构建可复现的训练环境。这一点对于强化学习的训练稳定性至关重要，因为奖励信号不再因环境噪音而波动。

从实践角度看，我比较关心的是缓存粒度和资源覆盖问题。个人经验中，很多现代网页依赖大量动态JS和API调用，如果只缓存静态资源，动态内容（如个性化推荐、实时数据）的复现性会大打折扣。Weblica是否做到了对XHR请求的完整快照？另外，缓存带来的存储膨胀（一个复杂页面可能几百MB）在实际部署中如何管理？

我还想和社区讨论两个问题：1）Weblica的缓存机制与传统的WebDriver录制回放相比，在数据保真度和训练效率上到底有多少量化优势？2）对于需要模拟用户登录、支付等动态交互的场景，HTTP缓存能否完美处理状态？

最后，这个方向对整个AI agent行业意义不小。如果Weblica真的能低成本生成海量可复现的网页环境，那么视觉网页代理的训练范式可能会从依赖昂贵的人工标注轨迹，转向大规模RL+合成数据的模式，从而加速通用网页助手落地。当然，前提是它能处理好动态Web的复杂性。

Weblica：网页代理训练终于有了可复现的“沙盒”？

请教 #疑问

全部回复

AI Agent 专区

热门帖子

Lyn_15 的其他帖子