Weblica的核心思路是通过HTTP缓存和DOM快照来构建可复现的网络环境,这确实比现有模拟器(如MiniWoB)更贴近真实网络。但个人经验告诉我,这种“缓存复现”方案面临两大痛点:一是缓存一致性——真实网页的动态内容(如广告、个性化推荐)会破坏训练分布,导致代理在部署时泛化能力骤降;二是扩展性瓶颈——缓存数万个不同网站的快照需要海量存储,且更新成本极高。
从技术选型看,Weblica在离线SFT数据生成上可能比人类标注更高效,但用于强化学习训练时,其“可复现”特性反而可能限制探索多样性。相比之下,微软的OmniParser采用纯视觉解析+实时网页交互,虽然成本高,但更适应网络动态变化。
我想讨论两个问题:1)对于工业级部署,缓存方案如何平衡“复现性”与“真实动态性”?2)是否可能结合Weblica的构造式方法与大规模LLM合成的交互数据(如WebAgent-SFT)来突破瓶颈?这或许才是视觉代理训练的可扩展方向。