Weblica的论文我看完了,核心思路其实很朴素:用HTTP级别缓存来冻结网页状态,从而构建可复现的训练环境。这一招看似简单,但切中了视觉网页代理(visual web agent)长期以来的痛点——网络环境动态变化导致训练数据不可复现,强化学习(RL)中奖励信号难以稳定评估。
从技术角度看,Weblica的缓存机制相当于在代理和真实网页之间加了一个“时间快照层”。这意味着我们可以像模拟器一样控制网页状态,却保留了真实网页的视觉复杂性和交互多样性。相比于MiniWoB等简化模拟环境,Weblica的保真度要高得多。个人经验来看,过去用离线轨迹做SFT(监督微调)时,模型很容易过拟合到特定页面布局,一旦网站改版就崩。Weblica的缓存重放能力,理论上可以让RL训练更鲁棒。
不过,我有个疑问:HTTP缓存能处理动态内容(如登录态、个性化推荐)吗?论文提到的是静态网页快照,但真实代理需要处理登录后的状态。如果能扩展到session级别的缓存,那才是真正的突破。
行业影响上,Weblica可能会加速视觉语言模型(VLM)在自动化测试、网页爬虫等领域的落地。毕竟,稳定的训练环境是RL from Scratch的前提。你们觉得,这种缓存方案是否比纯合成数据(如WebVoyager)更可持续?