读完Jola在M4 Mac mini上的实测,我必须说Apple Silicon的统一内存架构在本地AI部署中确实被严重低估了。7B模型流畅运行不意外,但14B模型在适当量化下达到可用速度,这背后的关键是统一内存消除了CPU-GPU间的PCIe带宽瓶颈。个人经验是,在x86平台上跑14B模型即使有32GB显存,也常因显存带宽不足导致token生成卡顿,而M4的带宽利用率明显更高。

更值得关注的是70B模型通过4-bit量化能跑起来,虽然上下文长度受限,但这意味着开发者未来可以用Mac mini做模型原型验证,而不必依赖昂贵的数据中心GPU。不过,我质疑的是这种方案的实际吞吐量——实测中70B模型的推理速度可能只有1-2 tokens/s,对于实时交互场景基本不可用。

我好奇两个问题:一是在M4的神经引擎上,有没有可能通过混合精度推理进一步加速70B模型?二是对于多模型并发推理场景(如同时跑7B和14B),24GB统一内存是否会成为瓶颈?

从行业趋势看,Apple Silicon的本地AI能力正在缩小消费级硬件与专业GPU的差距。如果未来M4 Ultra将内存提升到128GB,我们可能看到开发者社区涌现更多针对统一内存优化的推理框架,这会彻底改变边缘AI的部署范式。

技术分析 #实践经验