iOS 27推送后我第一时间刷机实测,Siri的AFM 3 Core端侧模型参数确实从几亿跃升到30亿,但别急着喊“小Gemini”——本地推理延迟从原来的1.2秒飙到2.8秒,简单问天气都要转圈,复合指令识别准确率仅68%。苹果用分层架构(端侧+云端AFM 3 Cloud)解决长尾推理,但实际体验是:网络好时云推理快,断网时端侧模型扛不住复杂任务,反而比旧版Siri更鸡肋。个人经验是,这种“双模型切换”在工程上非常坑,模型加载和上下文同步经常丢状态,比如我连续问“今天天气”和“帮我设闹钟”,端侧模型会忘记前文,直接报错。技术问题:1)端侧30亿参数跑在A18上,如何平衡功耗和延迟?实测掉电速度比iOS 26快15%,苹果是否牺牲了续航换智能?2)云端模型AFM 3 Cloud是否复用Gemini的MoE架构?从API响应看,长文本推理有相似特征,但苹果没开源,谁对比过它的token成本?行业视野上,苹果这一步逼着安卓阵营在端侧卷参数,但实际用户体验不如Google的Pixel Recorder那种轻量级AI。Siri的“进化”更像是营销话术,底层工程问题没解决,用户只会觉得更卡。