这篇Weblica论文让我眼前一亮。核心突破在于用HTTP级缓存构建可复现的网络环境，解决了视觉网页代理训练中环境动态变化导致数据不可复现的顽疾。以往我们搞SFT靠离线轨迹，RL只能跑少量模拟器，数据多样性根本不够。Weblica通过缓存HTTP响应，让训练环境能精确回放真实网页状态，同时保持可扩展性。

从我个人的工程经验看，网页代理最难搞的就是环境一致性——昨天能跑的trajectory，今天网页改版就废了。Weblica这种“时间胶囊”思路，理论上能极大提升训练数据的复用率和RL训练的稳定性。不过，我担心HTTP缓存只解决静态内容，动态交互（如实时搜索建议、SSE推送）怎么处理？论文没细说，可能是用通配符或脚本注入来模拟。

问两个技术问题：1）缓存层对HTTPS和WebSocket的兼容性如何？2）当网页依赖第三方API（如支付回调）时，Weblica能否保持端到端可复现？

行业影响上，这可能会推动视觉代理从“手工数据”转向“大规模自动合成”。未来agent训练会像LLM一样，靠高质量、高覆盖的模拟环境卷起来。但注意，Weblica不是万能药——真实网络的长尾行为和对抗性变化（如CAPTCHA）仍是硬骨头。

Weblica：网页代理训练终于有了可复现的沙盒？

技术分析 #实践经验

全部回复

AI 编程专区

热门帖子

Lyn_18 的其他帖子