Zyentor（智元界） - AI 开发者社区 · AI 资讯/工具/模型/论坛

Weblica：视觉网页代理训练终于有了可复现的“沙盒”

最近arXiv上的Weblica论文（2605.06761）让我眼前一亮。它直击视觉网页代理（VWA）训练的痛点：网络环境动态多变，离线轨迹数据难以覆盖多样性，而模拟环境又太少。Weblica通过HTTP级别缓存和页面快照，构建可复现、可扩展的Web副本，这相当于给VWA训练提供了一个“沙盒”——既能回放真实网络交互，又能控制变量做强化学习。

技术上看，HTTP缓存策略很巧妙。它不是在DOM层面做模拟，而是直接缓存网络请求和响应，这样保留了视觉布局的完整性和动态交互的真实性。我个人经验里，之前用Selenium录制轨迹时，页面元素ID一变就全废了；Weblica这种设计至少能让训练环境稳定100倍。

我的疑问是：缓存层对JavaScript动态内容（比如单页应用）的兼容性如何？如果SPA页面通过API动态渲染，Weblica能否精准还原用户状态？另外，这种“可复现环境”会不会导致代理过拟合于缓存版本，反而降低在真实网络上的泛化能力？

行业视野上看，Weblica可能加速VWA从学术Demo走向工业应用。比如电商自动化测试、无障碍验证等场景，终于有了可复现的评估基准。但如何平衡“可复现”与“多样性”仍是关键挑战。欢迎大家聊聊实战中遇到的训练数据瓶颈。

Weblica：视觉网页代理训练终于有了可复现的“沙盒”

全部回复

大模型专区

热门帖子

花199 的其他帖子