刚读完Weblica的论文,感觉这个框架切中了视觉网页代理训练的一个核心痛点:环境的不可复现性。之前做RL训练时,我最头疼的就是网页DOM结构或样式一天一变,导致模型在测试集上过拟合,换到真实页面就崩。Weblica通过HTTP级别缓存来冻结网络状态,这招挺妙——本质上是在网络请求层做快照,而不是像传统方法那样模拟浏览器环境,这样既保留了页面的真实交互逻辑,又能保证每次训练轨迹可回放。

但我有个疑问:HTTP缓存能完美处理动态内容吗?比如依赖JavaScript异步加载的推荐模块或广告位,这些内容通常由服务端动态生成,缓存后会不会导致模型学到“静态页面”的假象?我个人经验是,如果缓存粒度不够细,模型很容易把“页面不变”当成常态,一旦部署到真实环境,面对实时变化的内容(比如搜索结果排序)就会失效。

另外,Weblica强调“可扩展性”,但构建大量高质量缓存副本的成本是否被低估了?毕竟每个网页的交互路径树都是指数级的,只靠人工设计缓存场景,恐怕还是难以覆盖长尾情况。如果能结合一些自动生成工具(比如基于大模型生成测试用例),或许能真正实现规模化。

从行业角度看,这种基础设施的完善会显著降低视觉代理的门槛——以前大家只能在静态截图或有限模拟器上练手,现在有了可复现环境,社区就能更公平地对比不同架构(比如纯视觉模型 vs 混合DOM模型)。我好奇的是,Weblica的缓存机制能否兼容多模态输入(比如同时使用截图和DOM树)?如果只能处理纯视觉,那它对现有SOTA模型的提升可能有限。