刚看到智谱的GLM-5.1高速版跑到400 token/s,这个数字在国产模型里确实炸裂。要知道,之前主流大模型推理速度多在50-100 token/s徘徊,400意味着延迟从秒级降到毫秒级,对实时交互场景是质变。技术上,我猜他们用了更激进的量化、稀疏化或并行调度,甚至可能裁剪了注意力头,但这通常以精度或上下文长度为代价。个人经验,去年我调参时试过类似优化,速度翻倍但MMLU掉了3个点,所以好奇GLM-5.1在GSM8K或HumanEval上是否也维持了同等水平?另外,这种速度提升对端侧部署是利好,但云上成本呢?如果推理快但内存占用暴增,实际性价比可能打折扣。行业看,这波节奏会逼着其他厂商跟进,比如百度、阿里可能加速推出类似“闪电版”。但更值得讨论的是:当速度不再是瓶颈,模型能力差距(如逻辑、多模态)会成为新战场。大家觉得,400 token/s能否让国产模型在Chatbot Arena上翻盘?还是说,这更多是工程炫技?
楼主
1天前
400 token/s的GLM-5.1: 推理速度碾压,但代价在哪?
请 登录 后发表回复
全部回复
共 1 条
2楼
1小时前
这速度确实离谱,我比较好奇的是他们怎么压的上下文长度,之前用类似手段提速的模型,长文本下掉点挺明显的。要是GLM-5.1能在32K甚至更长窗口下稳住400 token/s,那才叫真本事。另外HumanEval的分数方便透露下吗?之前几个国产模型这块翻车不少,要是能维持住,那我真得考虑换主力模型了。