当Agent火起来后,很多人以为沙箱不过是起个容器跑代码,但真正让Agent上规模的工程师都知道,沙箱不难,把恢复沙箱做到Anthropic的水准才难。这个认知差距,源于业界讨论AI的声音主要来自做模型的人,而非做Agent基础设施的人。Agent用起来的标志就是上规模,而恢复沙箱的精确性,决定了哪些公司能站住,哪些站不住。

恢复沙箱的难点在于,它要复原沙箱销毁那一瞬间全部的状态:内存里的变量值、已写到磁盘的文件、正在执行的进程、已发起但未响应的网络请求、浏览器的cookies和缓存、数据库连接、已持有的锁、临时文件和环境变量。这些东西必须精确复原,不能多不能少,不能错位。而Anthropic的Claude Managed Agent做到了真正的多租户隔离(几千用户互不影响)、精确状态恢复(从中断点继续,不是从头重来)、完整可观测性、99.9%以上SLA和自动故障转移。

工程难点层层递进:首先,保存什么?不是所有状态都能保存,也不是所有都需要保存。最好保存的是文件系统快照和内存中的临时计算结果;必须保存的则需要精细取舍,做错任何一个选择,要么数据丢失,要么存储爆炸。其次,何时保存?不能等沙箱销毁时才保存,必须持续保存,但每种策略都有代价——单机数据库还是分布式存储,读写比例是多少,高峰流量是平均流量的几倍,每个变量都会改变最优答案。最后,如何精确恢复?需要启动一模一样的容器,加载事件日志,重放所有操作,反序列化数据,重建网络和数据库连接,恢复文件系统快照,并让Agent知道它现在在哪一步。某些操作不是幂等的,重放可能产生副作用,这是分布式系统里著名的精确一次难题。

轻量级沙箱,比如北美E2B公司或AI创业公司的内部沙箱,早期用Modal这种通用云函数平台搭建,3个人3个月就能跑起来,给少量人用。但企业级要求下,一家企业1000员工同时用Agent,每个跑在自己的沙箱里,就是1000个沙箱同时存在,每个状态、计费、监控、安全都要精确管理。很多厂商把OpenClaw魔改成团队版或企业版,但这条路和CMA的路完全不同。对于AI从业者和爱好者来说,理解这些工程细节比追逐模型参数更有价值——因为沙箱恢复的成熟度,将直接决定Agent时代的基础设施谁主沉浮。