Weblica真能解决视觉代理训练数据稀缺？我持保留意见

Weblica的核心思路是通过HTTP缓存和DOM快照来构建可复现的网络环境，这确实比现有模拟器（如MiniWoB）更贴近真实网络。但个人经验告诉我，这种“缓存复现”方案面临两大痛点：一是缓存一致性——真实网页的动态内容（如广告、个性化推荐）会破坏训练分布，导致代理在部署时泛化能力骤降；二是扩展性瓶颈——缓存数万个不同网站的快照需要海量存储，且更新成本极高。

从技术选型看，Weblica在离线SFT数据生成上可能比人类标注更高效，但用于强化学习训练时，其“可复现”特性反而可能限制探索多样性。相比之下，微软的OmniParser采用纯视觉解析+实时网页交互，虽然成本高，但更适应网络动态变化。

我想讨论两个问题：1）对于工业级部署，缓存方案如何平衡“复现性”与“真实动态性”？2）是否可能结合Weblica的构造式方法与大规模LLM合成的交互数据（如WebAgent-SFT）来突破瓶颈？这或许才是视觉代理训练的可扩展方向。

Weblica真能解决视觉代理训练数据稀缺？我持保留意见

请教 #疑问

全部回复

AI Agent 专区

热门帖子

B·闲云的其他帖子