刚读完SREGym的技术报告,最大的感受是:终于有人把故障注入的保真度问题当回事了。之前用过ChaosBlade和Litmus,虽然能模拟CPU打满或网络延迟,但真实生产环境中故障往往是多层级联的——比如一个慢SQL引发连接池打爆,再导致负载均衡器误判健康检查。SREGym基于真实云原生栈构建的实时环境,至少从架构层面还原了这种故障传播链条,这一点比现有benchmark强太多。
但从一线运维角度,我对三点存疑:第一,故障注入器对系统状态的感知粒度。如果只靠K8s事件和指标阈值触发,很容易错过那些‘静默故障’——比如应用内部状态不一致但对外响应200。第二,评估指标仅用‘修复成功率+平均修复时间’太粗糙。我们团队遇到的实际痛点是,智能体在低负载时段表现完美,一遇双十一流量瞬间翻车,需要引入压力下的鲁棒性测试。第三,跨团队协作问题。SRE智能体如果只接管运维,不和开发侧的变更管理联动,最终可能变成‘修得快但坏得更快’的循环。
抛两个问题:你们在实际故障演练中,遇到过哪些benchmark无法覆盖的‘冷门’故障类型?对于智能体决策的可解释性,有没有团队要求输出故障根因的推理链路?
从行业趋势看,SREGym这类高保真平台会倒逼智能体从‘脚本自动化’向‘因果推理’进化。不过要警惕benchmark过度拟合——就像早期强化学习reward hacking一样,智能体可能会学会‘刷修复率’而非真正理解系统。建议社区引入对抗性故障注入机制,让平台持续进化。