大模型高分低能：AI困在考场，干不了真活

2026-05-30 28 7

AI 大模型深度学习技术突破

昨天，Claude 4.8 带着“史诗级”代码能力升级登场，科技圈一片欢呼。官方评测数据碾压前代，仿佛交出了一份满分答卷。但如果你去一线程序员社区转转，会发现气氛异常冷静。很多人尝鲜后吐槽：写个单点代码确实强，可一旦接入真实业务系统去排查复杂线上Bug，它依然会卡壳、兜圈子，甚至一本正经地胡说八道。这折射出当下AI行业最大的魔幻现实：大模型跑分越来越高，但在干活场景里，大家总觉得它们像个高分低能的应试生。会修单点代码和会在终端里排查故障，根本是两个维度的生存能力。遗憾的是，绝大多数大模型仍被牢牢困在考场里。要理解这些估值千亿的模型为何不好用，得先回顾过去两年决定它们生死的榜单。早期行业陷入了一场声势浩大的应试教育。巨头们用静态代码榜单证明自己聪明，比如HumanEval和SWE-bench。规则很古典：题库既定，从GitHub开源仓库里取一段代码，明确告知Bug或功能需求，让模型生成补丁。这就像驾校科目二——场地画好白线，没有行人，没有加塞车辆，连风向和摩擦力都设定好。当所有人都知道考卷长什么样时，内卷不可避免。各大厂商日夜喂给模型海量高质量代码和测试集，在庞大算力堆叠下，只要环境无菌、上下文给全，AI都能写出工整的八股文。但真实世界是荒诞和混乱的。支撑几百亿营收的底层IT系统，不是逻辑严密的艺术品，而是历经无数轮业务迭代、被离职员工缝缝补补的数字废墟，行业里有个精准的词形容它——屎山代码。在这个迷宫里，跑着成千上万个微服务，有些服务连最初写它的人都已转行。没有最新探针，没有详尽文档，连报错日志都可能是系统底层的陈年Bug误报。当习惯了在无菌球体里做物理题的状元，被突然剥夺考纲、扔进没有标准答案的废墟时，脑子瞬间宕机是唯一宿命。商业世界的法则是冷酷的。企业老板花着每年几百万的订阅费，请回一群只会纸上谈兵的理科状元模型，却发现服务器宕机时，依然需要半夜打电话叫醒运维工程师排查问题。资本的耐心开始耗尽。风向大约从2025年下半年彻底转变。大家悄悄撕掉以前奉为圭臬的卷子，换成了车间里沾满油污的扳手。整个大模型评测行业开始惨烈的脱虚向实。早期标杆SWE-bench赶紧推出Pro和Verified进阶版本，试图删掉脱离实际的短代码题目，转向更长程的软件工程测试。但这还不够。为了测试AI能否像真正打工人那样解决问题，行业冒出一批刁钻新榜单。OSWorld-Verified不再让你写代码，而是盯在电脑桌面上，看AI能否像人类一样挪动鼠标、点开浏览器、拖拽文件完成跨软件任务。Terminal-Bench 2.1直接把AI关进黑乎乎的命令行终端，只给一个闪烁光标，看它会不会自己敲Linux命令排查底层逻辑。还有名为“Humanity's Last Exam”的变态榜单，专门榨干大模型的极限推理和多学科工具调用能力。从发考卷到进车间，这些新榜单的核心逻辑只有一个：不再看语法多漂亮，只看你能不能在没有提示词保姆的情况下，自己走完泥泞的最后一公里。在这场砸碎考场的运动中，走得最决绝的是IBM软件创新实验室与Artificial Analysis联合推出的ITBench-AA。它不相信八股文，甚至不给前置提示，直接把大模型踹进一个真实模拟的企业级Kubernetes集群里。对于不在IT圈的人，K8s集群意味着一个由无数容器、服务、网络和存储构成的复杂生态系统，故障可能潜伏在任意角落。大模型需要像资深运维一样，自己识别问题、定位根因、执行修复命令。这才是真正的车间测试。未来，只有那些能跨越从“做题”到“干活”鸿沟的模型，才能在商业世界赢得信任。对AI从业者而言，与其盯着评测榜单欢呼，不如关注模型在真实场景中的表现。毕竟，客户不会为一纸满分答卷买单，他们只在乎系统能否稳定运行。大模型们，该从考场里走出来了。

原文链接： https://www.aitntnews.com/newDetail.html?newId=25663

查看全部原创 · 技术论坛讨论

讨论 (0 条)

登录后参与讨论