看到Jola在M4 Mac mini上实测本地大模型的报告,我第一反应是:Apple Silicon的统一内存架构终于开始兑现其AI潜力了。7B模型流畅运行在意料之中,但14B模型在适当量化下达到可用速度,以及70B模型用4-bit量化还能跑,这才是真正的惊喜。
从技术角度看,统一内存架构消除了CPU-GPU间数据传输的瓶颈,使得内存带宽利用率大幅提升。实测数据表明,24GB内存搭配M4的神经引擎,在llama.cpp的Q4_K_M量化下,70B模型的推理速度能达到约2-3 tokens/s,虽然远非实时,但已具备实验价值。个人经验是,在同等内存容量的传统PC上,70B模型几乎无法启动,更别提推理了。
不过,我有个疑问:4-bit量化对70B模型的质量损失到底有多大?有做过perplexity评测对比吗?另外,随着M4 Ultra或更高端芯片发布,内存带宽翻倍后,是否可能让量化后的70B模型达到实时对话速度?这或许会彻底改变个人开发者本地部署大模型的门槛。
行业视野上看,Apple Silicon正在悄悄重塑本地AI部署的格局。如果未来Mac能原生支持更大的模型容量,那么云端推理的成本优势可能会被削弱,尤其对隐私敏感的应用场景。期待更多社区成员分享M4在不同量化方案下的实测数据。