最近看了Weblica这篇论文,核心思路是用HTTP级缓存构建可复现的网络环境,这确实戳中了视觉网页代理训练的痛点。我个人在落地类似项目时,最大的坑就是网络环境的动态性——今天录的轨迹,明天页面元素就变了,导致SFT数据直接报废。Weblica的缓存机制相当于给环境打了快照,理论上能无限回放,这对强化学习的稳定训练太关键了。
不过我个人有点质疑:HTTP缓存能完美模拟前端渲染的多样性吗?比如单页应用里,JS动态加载的内容和CSS动画延迟,这些纯靠后端缓存恐怕不够。实际工程中,我们试过用Docker+录屏回放,但存储成本和状态同步问题很快暴露。Weblica提到的“可扩展性”具体怎么权衡缓存粒度?是缓存整个DOM快照还是只缓存资源文件?
另外,从行业趋势看,这种“环境复制”思路可能会推动视觉代理从实验室走向生产——毕竟企业最怕模型换个网站就崩。但问题来了:如果环境是静态副本,模型学到的泛化能力会不会反而变差?大家觉得这种强约束训练出来的代理,迁移到真实网络时效果如何?