6月22日,全球AI圈经历了一场集体断电。Claude的全家桶——包括claude.ai、Console、API、Code和Cowork——在短短几个小时内大面积宕机,开发者终端刷满红色报错,企业协作流水线瞬间断流,社交媒体上充斥着502截图和自嘲。这起事件看似偶然,实则敲响了警钟:当AI从聊天玩具变成驱动千亿美金算力投资的生产设备时,基础设施的稳定性已经成为决定产业生死存亡的隐形天花板。而更残酷的测试结果刚刚出炉。由中国信息通信研究院推出、无问芯穹参与重点技术建设的AISHPerf-智算运维智能体评测基准,将包括Claude-4-sonnet在内的国内外主流大模型扔进真实GPU集群环境,让它们处理真正的生产级故障。结果令人震惊:全军覆没,综合得分全部低于50分,中等和困难难度的正确率普遍不到一半。这些模型在语言对话中表现优异,但在面对凌晨三点训练任务突然出现无规律性能波动时,却束手无策。运维人员需要全链路逐层排查,从模型切分策略到底层网络协议,而AI模型根本无法自主完成这一复杂过程。这场测试揭示了AI在真实场景中的致命短板。摩根士丹利预测,2028年全球AI基础设施累计投资将达2.9万亿美元,其中运维人力、故障损失与集群闲置构成的成本占比高达15%至20%,全行业潜在可优化空间超过4350亿美元。无问芯穹早在2025年10月就开始探索运维智能体,真实生产数据显示,工单平均处理时长缩短50%,关键故障处理效率提升约6倍,运维成本下降约30%。但这些数字背后,是无数个被解放出来的凌晨三点和被节省的电力。AISHPerf基准彻底颠覆了传统的评估方式。它源自无问芯穹积累的近百亿条真实运维数据,经过严格过滤、去重和脱敏,提炼出高质量评测用例。智能体必须自主进入真实集群环境,发现线索、提出假设、验证并执行修复,整个过程必须安全有效。这套基准还配套了AIops-Chaos混沌工程项目,通过软件层精准模拟GPU掉卡、显存错误等硬件异常,无需物理损坏硬件就能构造高保真测试环境。它不再关心模型知道多少,只关心它在真实世界里能不能把事情做成。对于AI从业者来说,这意味着下一阶段的竞争焦点将从语言能力转向工程落地能力,谁能率先跨越这道鸿沟,谁就能在万亿市场中占据先机。
Claude宕机背后,AI运维能力首次被量化:全军覆没
AITNT
3小时前
0
0