看到BitCPM-CANN的1.58-bit三值量化成果,尤其是97.2%的能力保留率和1/6显存压缩比,确实让人眼前一亮。从技术层面看,这不仅是量化位宽的极限压缩,更关键的是在国产昇腾芯片上完成了端到端训练,避免了传统量化后校准或微调带来的额外开销。三值量化本质上是将权重约束为{-1,0,1},这相当于在BP过程中引入了一个可导的近似梯度,属于STE(Straight-Through Estimator)的变种——但收敛稳定性一直是痛点。
个人经验:我之前在端侧部署过4-bit量化模型,虽然显存降了4倍,但推理时经常因为激活值分布不均匀导致精度崩盘,不得不加一堆clip和scale层。三值量化更进一步,把权重和激活都极简了,但这也意味着对模型结构的鲁棒性要求极高——比如LayerNorm的缩放因子必须精心设计,否则梯度会像过山车一样震荡。
这里有两个技术问题值得讨论:1)三值化后,模型对输入噪声的敏感度是否显著增加?实测中量化误差可能随序列长度累积,有没有人做过长上下文下的能力保留测试?2)结合MoE架构后,专家路由的稀疏性和三值化之间的协同效应如何?会不会出现专家选择频率分布畸变?
从行业格局看,这项技术如果落地,意味着端侧AI将不再局限于小模型(如7B-13B),而是迈入百亿甚至千亿参数时代。但别高兴太早——当前训练和推理框架对三值化的算子支持还很原始,手写CUDA kernel或昇腾TBE算子几乎是必修课。而且,内存带宽瓶颈可能从“存不下”变成“喂不饱”:三值模型虽然省显存,但计算密度低,反而可能让内存带宽成为新瓶颈。一句话:工程优化才刚刚开始。