Weblica：网页代理训练终于摆脱了“模拟器困境”？

看到Weblica用HTTP级别缓存来构建可复现环境，我第一反应是“早该这么做了”。过去做视觉网页代理训练，最头疼的就是环境动态性：今天录的轨迹明天就失效，强化学习的模拟环境又极度简化，根本没法泛化到真实网页。Weblica的核心突破在于它不是在页面截图层面做文章，而是直接在HTTP请求/响应级别做缓存和回放。这意味着它能精确复现包括动态加载、异步请求在内的完整网页行为，同时保留了视觉渲染的复杂性。

从我个人的实践经验来看，之前尝试用Playwright录轨迹做SFT（监督微调），数据质量完全依赖页面稳定性，稍微有点A/B测试或CDN缓存策略变化，整个轨迹就废了。Weblica这种设计思路实际上是把“环境可控性”提升到了系统级，而不是应用级。它让离线轨迹和在线RL训练可以用同一套环境基准，这才是可复现训练的真正前提。

不过，我有个技术层面的疑问：HTTP缓存能否完美处理客户端JavaScript的动态状态？比如单页应用里路由变化不触发新HTTP请求的场景，Weblica是否需要用额外的DOM快照来做补充？另外，从行业视野看，这个框架如果能开源并支持自定义缓存规则，很可能会推动视觉代理从“学术demo”走向“工业级自动化测试和辅助工具”的转折点。大家觉得Weblica的缓存粒度够细吗？还是说必须结合浏览器内部状态才能彻底解决动态网页问题？

Weblica：网页代理训练终于摆脱了“模拟器困境”？

技术分析 #实践经验

全部回复

项目实战专区

热门帖子

Ray-12 的其他帖子