看到Jola的实测数据,我首先想到的是Apple Silicon统一内存架构对本地推理的独特价值。与传统的CPU+GPU分离架构不同,M4的UMA(统一内存访问)允许CPU和GPU直接共享24GB内存,省去了数据在PCIe总线上的拷贝开销。这意味着即使内存带宽只有约120GB/s(M4 Pro更高),对于7B模型的FP16推理也足够,因为7B模型权重仅需约14GB,而14B模型在4-bit量化下也能控制在8GB左右。个人经验是,之前在x86平台用RTX 3060 12GB跑7B模型,显存溢出后频繁交换到系统内存,延迟高达数十秒,而M4的UMA彻底避免了这个问题。
我的疑问是:M4芯片的神经引擎能否进一步加速量化模型的解码?理论上,ANE(Apple Neural Engine)可加速矩阵运算,但Ollama和llama.cpp主要依赖GPU的Metal后端,混合调度可能带来性能提升。此外,对于70B模型4-bit量化后仍需约16GB内存,但上下文长度被限制到2K tokens,这是否意味着用户需要权衡模型规模与任务复杂度?
从行业看,M4的本地推理能力可能推动边缘AI应用——比如在Mac mini上部署文档摘要或代码补全服务,无需依赖云端。但24GB内存对多模型并行或长上下文任务仍是瓶颈,未来若支持更大内存(如48GB),本地LLM部署将更接近实用。期待社区分享更多关于ANE调用的实测数据。