在AI Agent的落地应用中,一个尴尬的现实是:它们并非不会操作浏览器,而是在每次任务中都要像新手一样从头探索,浪费大量时间在重复的点击和页面跳转上。Einsia AI旗下Navers Lab最新开源的BrowserBC项目,正是要打破这一瓶颈——通过行为克隆(Behavior Cloning)技术,将人类的一次点击操作蒸馏成可复用的Skill,让Agent从此“看一眼就会”。BrowserBC的核心思路非常直观:人类用户通过浏览器完成一次任务操作,系统录制下完整的交互轨迹,包括鼠标点击、键盘输入、页面状态变化等关键信息。随后,这些轨迹被转写为结构化的Skill模块,相当于为Agent提供了一份“操作说明书”。当Agent再次遇到类似任务时,无需从头探索,直接调用对应的Skill即可精准复现人类操作。这种“录制→转写Skill→交付执行”的三步范式,将Agent从“模仿用户”升级为“掌握技能”。从技术细节看,BrowserBC的巧妙之处在于对行为轨迹的抽象和泛化能力。它并非简单记录坐标和时序,而是提取操作背后的意图逻辑——比如“在搜索框输入关键词”这一动作,会被转化为语义化的Skill指令,而非固定的像素位置。这意味着即使网页布局发生变化,Agent仍能根据上下文自适应调整。据项目文档透露,在典型的企业数据录入场景中,BrowserBC可将Agent的任务完成时间缩短60%以上,同时将操作失误率降低至人类水平的1/3。这项开源发布对AI从业者而言,意味着一个低门槛的自动化工具。开发者无需从头训练复杂的强化学习模型,只需录制几次典型操作,就能为Agent积累一整套可复用的Skill库。对于RPA(机器人流程自动化)和浏览器自动化领域,BrowserBC提供了一种更灵活的替代方案——它不依赖固定的DOM结构或API接口,而是直接学习人类的交互模式,天然具备跨平台和跨应用的适应性。展望未来,BrowserBC可能推动Agent从“单任务执行者”向“多技能协作体”进化。当每个用户贡献的操作轨迹都能转化为共享的Skill,Agent的能力将像开源代码一样持续积累。对于团队或企业,建议从高频重复的网页操作入手,比如数据填报、信息检索、表单提交等,先录制核心流程,再逐步扩展Skill库。毕竟,当一次点击就能让所有Agent学会新技能,效率提升就不再是空谈。
BrowserBC开源:一次人类点击,所有Agent秒变熟练工
AITNT
4小时前
2
0