Adam Brown的演讲确实振奋人心,但作为一名在AI基础设施领域摸爬滚打多年的从业者,我对“数十亿超人级AI”这个数字持谨慎态度。从技术角度看,当前AI从博士级跃升至超人级,核心障碍已不再是算法创新,而是算力与能耗的物理极限。以GPT-4为例,其训练成本已超1亿美元,能耗堪比小型城市。若真要将数十亿个“爱因斯坦级”AI部署到生产环境,全球电网和芯片供应链将面临崩溃式压力。Hinton的盛赞更多是对AGI愿景的肯定,而非对工程可行性的背书。我个人经验是,模型参数量每提升一个数量级,边际收益已显著递减——去年我们团队尝试复现类似规模的推理优化时,发现单纯堆算力会导致延迟和成本失控。真正有意义的问题在于:我们是否需要那么多“爱因斯坦”?在医疗、气候等特定领域,垂直领域的专家级AI可能比全能超人更实用。这引出一个技术讨论:未来AI进化是走向通用智能的“广度”,还是专用智能的“深度”?另外,当AI智商超越人类时,我们如何确保其对齐目标不被单一价值观绑架?行业应更多关注稀疏计算、神经形态芯片等能效技术,否则“数十亿超人”只会是纸面上的数字游戏。
超人级AI爱因斯坦?别忽视算力与能耗的物理天花板
全部回复
共 2 条说到点子上了。我最近刚好在做一个分布式训练的项目,感触特别深。现在的瓶颈确实不在算法层面,而是物理层面的硬约束。GPT-4那个训练成本我算过账,光电费就够买几台E级超算跑一年了,这还没算上冷却和网络互联的开销。
你提到“参数量每提升一个数量级边际收益递减”,这个我完全认同。我这边实测数据也差不多,从千亿到万亿参数,推理延迟和显存占用是指数级增长,但模型在标准benchmark上的提升已经不到5%了。更头疼的是,就算你堆硬件堆到能跑起来,数据质量和标注成本又成了新瓶颈——你总不能让几十亿个爱因斯坦在那儿干瞪眼等着喂数据吧。
Hinton那个表态我理解是给行业打气,但真要落地,得先解决能效比的问题。现在GPU的算力密度已经快摸到半导体的物理极限了,3nm以下的制程边际收益越来越小,散热和良率都在拖后腿。有些团队开始押注光子计算或存内计算,但短期内看不到工程化希望。
另外,你还漏了一个关键问题:分布式训练的通信开销。当模型规模大到需要跨数据中心协同,光千兆网络都不够用,必须上RDMA和光互联,这又是一笔天文数字。感觉现在更像是“工程问题”而不是“科学问题”,但工程问题有时候比科学问题更难啃,因为没有捷径可走。
这帖子说得在理,尤其是算力和能耗这块,确实是现在最务实的卡点。我这两年做推理落地感触特别深,GPT-4那个级别,单次推理的功耗已经够让人头疼了,真要搞数十亿个“爱因斯坦级”agent并行,光散热和电力调度就能让数据中心原地爆炸。而且你提到的边际收益递减,我这边实测也印证了——模型从千亿参数往万亿走,SOTA提升越来越窄,但训练成本是指数级往上翻,这账算下来,工程上根本没法闭环。
不过我倒觉得,问题的核心可能不在“能不能造出来”,而在“值不值得造”。Hinton他们谈AGI愿景,更多是给学术界画个长期灯塔,但工业界要的是可落地的ROI。现在大家更务实的做法是搞MoE、蒸馏、量化这些降本手段,把一个大模型拆成一堆专业化小模型,用更低的能耗去逼近超人级能力。比如最近看到的几个垂直领域方案,参数量只有GPT-4的十分之一,但在特定任务上表现已经超出博士级了。
另外还有个隐忧:就算算力瓶颈靠新型芯片(比如光计算、存内计算)突破了,电网配套也得同步升级。国内有些超算中心已经开始被限电了,这问题比算法更棘手。说到底,AGI的物理天花板不光是技术问题,更是基础设施投资的政治经济学问题。建议多关注下能源侧的动态,比如核聚变或者超导输电的进展,这些可能比算法创新更能决定未来十年的天花板在哪。