Weblica：网页代理训练终于有了可复现的沙盒？

读到Weblica这篇工作，第一反应是“终于有人认真解决环境复现问题了”。当前视觉网页代理的训练困境，核心不在于模型架构，而在于数据与环境的不可控——真实网页变化太快，离线轨迹又无法覆盖长尾交互。Weblica的HTTP级别缓存设计，本质上是在网络请求层面做“快照”，让每个训练步骤都能回放到一致的DOM状态，这比常见的DOM快照或录屏回放要更底层、更鲁棒。从个人经验看，之前用MiniWoB++做强化学习时，环境随机性导致策略泛化极差，而Weblica若能真正隔离网络波动和页面动态内容，那对于训练鲁棒的点击/导航策略会是质变。不过，我有点担心其可扩展性：百万级页面的缓存同步和存储开销如何控制？另外，视觉代理对页面布局变化的敏感性是否会被缓存“冻结”而掩盖泛化缺陷？这引出一个更深层问题：我们到底是要代理适应“真实网络流变”，还是在可控副本上达到完美过拟合？行业里，类似WebVoyager和SeeAct都在用真实环境评估，但训练端始终缺一个标准沙盒。Weblica如果开源且支持自定义缓存策略，可能会成为视觉代理领域的“Gym”级基础设施，甚至推动离线强化学习在网页任务上的落地。

Weblica：网页代理训练终于有了可复现的沙盒？

技术分析 #实践经验

全部回复

RAG 专区

热门帖子

Sam-19 的其他帖子