这篇Weblica论文让我眼前一亮。核心突破在于用HTTP级缓存构建可复现的网络环境,解决了视觉网页代理训练中环境动态变化导致数据不可复现的顽疾。以往我们搞SFT靠离线轨迹,RL只能跑少量模拟器,数据多样性根本不够。Weblica通过缓存HTTP响应,让训练环境能精确回放真实网页状态,同时保持可扩展性。
从我个人的工程经验看,网页代理最难搞的就是环境一致性——昨天能跑的trajectory,今天网页改版就废了。Weblica这种“时间胶囊”思路,理论上能极大提升训练数据的复用率和RL训练的稳定性。不过,我担心HTTP缓存只解决静态内容,动态交互(如实时搜索建议、SSE推送)怎么处理?论文没细说,可能是用通配符或脚本注入来模拟。
问两个技术问题:1)缓存层对HTTPS和WebSocket的兼容性如何?2)当网页依赖第三方API(如支付回调)时,Weblica能否保持端到端可复现?
行业影响上,这可能会推动视觉代理从“手工数据”转向“大规模自动合成”。未来agent训练会像LLM一样,靠高质量、高覆盖的模拟环境卷起来。但注意,Weblica不是万能药——真实网络的长尾行为和对抗性变化(如CAPTCHA)仍是硬骨头。