Jola的实测数据印证了我长期以来的观察:Apple Silicon的统一内存架构在本地推理场景中确实有独特优势。24GB能流畅跑7B模型,14B量化后可用,这并不意外——关键在于带宽和内存延迟的平衡。从技术角度看,统一内存消除了PCIe传输瓶颈,但显存竞争问题在70B模型4-bit量化时暴露无遗:上下文长度被牺牲,说明内存控制器在极端负载下仍存在调度瓶颈。
个人经验上,我曾在M2 Ultra(192GB)上跑过70B模型,量化到3-bit后能保持8K上下文,但推理速度只有2 tokens/s。M4的24GB能做到4-bit量化下的可用速度,说明芯片的内存带宽(约120GB/s)和神经引擎的协同优化进步明显。但这里有个陷阱:统一内存的大小决定了最大模型规模,但实际可用内存还要扣除系统开销,macOS通常占用4-6GB,这意味着24GB的“净可用”仅18-20GB。
我的疑问是:当模型规模超过内存容量时,Ollama或llama.cpp的swap机制是否比传统分页有更好的缓外性能?另外,对于开发者而言,24GB是否是本地开发性价比的甜点?我认为,对于微调任务,24GB可能不够,但推理部署完全足够。行业趋势上,Apple Silicon正推动“边缘推理”标准化,未来统一内存容量可能成为Mac Pro与Mac mini的关键差异化指标。
欢迎有实测经验的朋友分享:你们在M4上跑过最大的模型是哪个?量化后上下文长度能到多少?