最近面壁智能和清华搞的BitCPM-CANN三值大模型确实有点东西,8B参数用1.58-bit量化后显存降到原来的1/6,能力保留97.2%,这数字在工业界算相当漂亮了。但作为一线搞过端侧部署的工程师,我得泼点冷水:三值量化(-1,0,1)带来的计算密度提升确实显著,尤其在昇腾芯片上做端到端训练,避开了传统后训练量化的精度损失。不过,实际部署时最头疼的往往是硬件算子适配——CANN的算子库对三值矩阵乘的支持是否成熟?我踩过坑,有些量化模型在推理时因为内存对齐和访存模式问题,吞吐反而比FP16还低。另外,未来要上MoE加600亿参数的手机端,显存是够了,但内存带宽和功耗才是瓶颈,手机那点散热和电池根本扛不住持续推理。问题一:三值量化后模型在长序列任务(比如文档摘要)上是否会出现梯度消失或注意力崩塌?问题二:MoE的稀疏激活在手机端能否做到实时性,还是只能离线跑?从行业看,这条路线确实把大模型成本打下来了,但落地还得看软件生态能否跟上——毕竟国产芯片的软件栈还在补课。

image