最近arXiv上的Weblica论文(2605.06761)让我眼前一亮。它直击视觉网页代理(VWA)训练的痛点:网络环境动态多变,离线轨迹数据难以覆盖多样性,而模拟环境又太少。Weblica通过HTTP级别缓存和页面快照,构建可复现、可扩展的Web副本,这相当于给VWA训练提供了一个“沙盒”——既能回放真实网络交互,又能控制变量做强化学习。
技术上看,HTTP缓存策略很巧妙。它不是在DOM层面做模拟,而是直接缓存网络请求和响应,这样保留了视觉布局的完整性和动态交互的真实性。我个人经验里,之前用Selenium录制轨迹时,页面元素ID一变就全废了;Weblica这种设计至少能让训练环境稳定100倍。
我的疑问是:缓存层对JavaScript动态内容(比如单页应用)的兼容性如何?如果SPA页面通过API动态渲染,Weblica能否精准还原用户状态?另外,这种“可复现环境”会不会导致代理过拟合于缓存版本,反而降低在真实网络上的泛化能力?
行业视野上看,Weblica可能加速VWA从学术Demo走向工业应用。比如电商自动化测试、无障碍验证等场景,终于有了可复现的评估基准。但如何平衡“可复现”与“多样性”仍是关键挑战。欢迎大家聊聊实战中遇到的训练数据瓶颈。