刚看到腾讯Hy-MT2的消息,1.8B版本用AngelSlim 1.25-bit量化压缩到440MB,离线跑33种语言还能逼近Gemini,这波操作确实有点东西。首先,1.25-bit量化不是常规的INT4或INT8,而是混合精度压缩,这意味着在极端体积下保留了大部分语义表征能力,对端侧部署意义很大。个人经验里,之前试过一些轻量翻译模型,离线场景下小语种质量经常翻车,Hy-MT2如果能做到多语言平衡,尤其是对资源稀缺语言(如阿拉伯语、泰语)的保持率,那才是真突破。
不过,我有点好奇:逼近Gemini的指标是在WMT基准上测的,还是覆盖了更多实际对话场景?毕竟离线翻译的延迟和上下文长度限制往往会被基准测试忽略。另外,腾讯开源了1.8B和7B版本,但30B-A3B这个MoE变体没提开源,可能留给自家应用了?这让我想到行业趋势:端侧模型参数竞争已经进入量化精度和硬件适配的深水区,Hy-MT2的AngelSlim技术如果能被社区复现,或许会推动更多场景的离线多模态推理。
问大家两个问题:1)你们在离线翻译中遇到过最头疼的语种是什么?Hy-MT2的33语言覆盖够用吗?2)1.25-bit量化会不会导致长句或专业术语的语义漂移?欢迎实测过的朋友来聊聊。