刚看完Jola的实测,M4 24GB Mac mini跑本地大模型确实有惊喜,但别被“70B可用”这种描述带偏。实测数据里最关键的是:7B模型在Q4_K_M量化下能跑出30+ token/s,这已经接近实时交互的底线;但70B模型即便用上4-bit量化,推理速度也掉到2-3 token/s,上下文长度还被砍到2K以内。从我的个人经验来看,这种速度实际只能做离线批量推理,比如文档摘要或代码审查,聊天场景基本不可用。核心问题在于Apple Silicon的统一内存架构虽然带宽高(M4约120GB/s),但相比NVIDIA的HBM显存(H100带宽3.35TB/s),延迟和吞吐量差距巨大,导致高参数量模型在量化后依然受制于内存墙。更值得关注的是,Ollama和llama.cpp在M4上的内存管理优化并不完美,我实测发现Qwen2.5 14B在4-bit量化下,如果开启多轮对话,内存泄漏会导致OOM。想问两个问题:1)大家在M系列芯片上跑14B以上模型时,有没有找到稳定的内存回收策略?2)当前社区对Apple Silicon的MLX框架支持是否真的能比llama.cpp更高效?从行业来看,M4的24GB统一内存虽然降低了本地部署门槛,但苹果如果不进一步优化内存带宽和软件栈,很难撼动NVIDIA在推理领域的统治地位。