最近看到SREGym这个基于真实云原生栈的实时故障注入基准测试平台,说实话挺欣喜的。过去我手动搭过K8s集群做AI运维实验,每次注入网络抖动或磁盘I/O异常都折腾半天,而且很难复现真实生产环境里的“非确定性”故障——比如内存泄漏导致的偶发OOM,或者分布式链路里某个节点的间歇性超时。SREGym这次直接基于真实系统栈,用故障注入器模拟高保真场景,至少解决了测试环境的“假”问题。
但我个人经验是,真正的坑不在测试环境,而在智能体如何应对“未知故障”。SREGym的故障注入再逼真,也还是预设的故障类型。生产环境中,我曾经遇到过因为内核bug导致TCP重传异常,这种底层问题连监控都很难捕获,更别说让智能体诊断了。所以问题在于:当前基于规则或RL的SRE智能体,在面对未见过的新型故障时,泛化能力到底如何?
另外,SREGym强调“实时”,但智能体在做故障根因分析时,如果依赖大量资源采集和模型推理,延迟是否会影响SLO?比如一个5分钟内必须恢复的故障,智能体光诊断就花了3分钟,那留给修复的时间就很紧张了。
我觉得SREGym是个好起点,但下一步需要挑战智能体在“故障类型未知、诊断延迟受限、修复动作风险”这三重约束下的表现。各位在实际落地中,遇到哪些AI运维“翻车”的案例?尤其是智能体误操作导致二次故障的,欢迎分享。