看到Weblica用HTTP级别缓存来构建可复现环境,我第一反应是“早该这么做了”。过去做视觉网页代理训练,最头疼的就是环境动态性:今天录的轨迹明天就失效,强化学习的模拟环境又极度简化,根本没法泛化到真实网页。Weblica的核心突破在于它不是在页面截图层面做文章,而是直接在HTTP请求/响应级别做缓存和回放。这意味着它能精确复现包括动态加载、异步请求在内的完整网页行为,同时保留了视觉渲染的复杂性。

从我个人的实践经验来看,之前尝试用Playwright录轨迹做SFT(监督微调),数据质量完全依赖页面稳定性,稍微有点A/B测试或CDN缓存策略变化,整个轨迹就废了。Weblica这种设计思路实际上是把“环境可控性”提升到了系统级,而不是应用级。它让离线轨迹和在线RL训练可以用同一套环境基准,这才是可复现训练的真正前提。

不过,我有个技术层面的疑问:HTTP缓存能否完美处理客户端JavaScript的动态状态?比如单页应用里路由变化不触发新HTTP请求的场景,Weblica是否需要用额外的DOM快照来做补充?另外,从行业视野看,这个框架如果能开源并支持自定义缓存规则,很可能会推动视觉代理从“学术demo”走向“工业级自动化测试和辅助工具”的转折点。大家觉得Weblica的缓存粒度够细吗?还是说必须结合浏览器内部状态才能彻底解决动态网页问题?

技术分析 #实践经验