论坛 / 开源模型专区 / 苹果Siri AI：谷歌模型的皮，苹果生态的魂，落地还需观望

楼主 4天前置顶

Z Z_踏雪 L1

苹果Siri AI：谷歌模型的皮，苹果生态的魂，落地还需观望

看到WWDC上Siri AI的演示，我第一反应是：苹果终于把AI系统级调用做成了，但技术细节暴露了不少工程挑战。核心突破在于Apple Intelligence的全局调用架构——Siri能读取屏幕内容、操作跨应用流程，这比单纯对话式AI难一个数量级。但关键点在于，苹果选择了谷歌的基础模型作为底层支撑，而不是自研大模型。从一线工程师角度看，这意味着苹果在模型训练和推理效率上仍有短板，尤其是端侧部署的延迟和隐私保护之间的平衡，实测中可能不如宣传那么流畅。

个人经验是，跨应用交互的AI最容易翻车在权限管理和上下文一致性上。比如Siri要删除备忘录里的照片，涉及文件系统、图库、备忘录三个服务的协同，任何一个环节的API调用超时都会导致体验断裂。苹果的解决方案是用私有云和端侧模型分层处理，但初期仅支持英语且欧盟受限，说明合规和本地化适配还有大量工作。

讨论问题：1. 谷歌模型在苹果生态中的适配度如何？会不会出现类似安卓上模型调用iOS私有API的性能损耗？2. 苹果宣称“隐私优先”，但跨应用交互必然需要更高权限，如何避免用户数据被滥用？

行业视野上，这次Siri AI标志着AI助手从“问答工具”转向“系统级代理”，但苹果的封闭生态既是优势也是枷锁——开发者能否获得足够开放的工具链来构建第三方场景？如果做不到，Siri AI可能只是苹果自家应用的独角戏。

请登录后发表回复

全部回复

共 33 条

A AI勇 L1

2楼 4天前

同感，跨应用交互这块确实是目前AI落地的最大坑。我之前做过一个类似的项目，想让AI自动帮你订外卖，结果光是识别屏幕上的“确认下单”按钮在不同App里的位置和样式，就搞了三个月，而且一更新系统就崩。苹果这次敢在WWDC上演示从相册里选图直接拖进邮件，说明他们在UI结构化和指令解析上确实下了功夫，但说实话，这种演示大概率是精心排练过的，真实场景下App版本、权限弹窗、网络延迟这些变数太多了。

关于端侧部署，我觉得苹果选谷歌模型可能不只是技术短板的问题，更多是商业化考量。自研大模型投入太大，而且苹果强在芯片和生态整合，模型这块用成熟方案快速落地，先把用户习惯圈住，后面再慢慢替换自己的模型，这是典型的苹果风格。不过那个隐私保护我持保留态度——Siri要读屏幕内容，就意味着你的所有操作都在本地被解析，虽然苹果说不存云端，但本地模型跑起来，内存和CPU占用肯定不小，老机型估计得卡成PPT。

另外你说到延迟，跨应用调用最怕的就是流畅度断裂。如果每次操作都要等3秒才响应，用户肯定直接关掉。我猜苹果大概率会搞个后台预加载机制，比如根据你打开的应用提前缓一部分指令，但这又跟隐私保护里的“按需调用”矛盾。总之，等正式版出来，我第一个拿iPhone 15 Pro Max实测，看看是不是真的不崩。

M Mik-98 L1

3楼 4天前

跨应用交互这块儿确实是硬骨头，我团队之前试过类似方案，光权限管理和上下文持久化就够喝一壶的。苹果选谷歌模型大概率是看中其在端侧推理的量化压缩能力，但隐私计算和模型延迟的trade-off，Siri的本地推理负载可能比想象中大。另外，那个屏幕内容读取的API接口，会不会成为新的攻击面？感觉这波落地前还得解决不少工程细节。

J Jac-川 L1

4楼 4天前

确实，苹果选谷歌模型这点挺让人意外的，说明他们在自研大模型上还没完全准备好。不过我觉得端侧隐私和延迟的平衡才是真正难题，毕竟苹果一直拿隐私当卖点，要是为了流畅度牺牲本地处理，那跟安卓阵营就没区别了。你提到的跨应用交互翻车点，我猜大概率会是权限管理和第三方适配的坑，苹果能不能搞定还得看开发者跟不跟。

J Jim·峰 L1

5楼 4天前

跨应用交互这块确实是硬骨头，我去年在做一个类似的项目（当然没苹果这么大规模），光是让AI理解当前屏幕的UI层级就够头疼的。苹果那个demo看着流畅，但实际跑起来，屏幕内容解析的延迟、多App状态同步、还有权限弹窗的打断，任何一个环节掉链子体验就崩了。他们选谷歌模型我倒不意外，自研大模型吃力不讨好，端侧推理和隐私计算才是苹果的真功夫，但问题在于谷歌模型本身就不是为这种端侧实时场景设计的，裁剪和量化后的精度损失怎么弥补，我挺好奇他们工程团队具体怎么处理的。

另外说个细节，跨应用操作最怕的是“上下文漂移”——用户在一个App里操作到一半，切到另一个App，AI得记住之前的状态，还得判断当前该不该继续之前的流程。苹果那个演示里看起来是全局内存管理做得不错，但实际Beta版里这种长链路任务出错率肯定不低。我猜他们大概率是先做单App内的自动化，再慢慢扩展到系统级，毕竟苹果的沙盒机制天然限制了跨App数据互通。

说到底，这功能对开发者也是个新考验，以后写App可能得考虑怎么给AI留接口，不然就等着被AI跳过或者误读。你提到的隐私平衡问题，我觉得苹果大概率会走“本地优先+云端辅助”的路子，但敏感操作（比如读取屏幕内容）的权限粒度和用户反馈机制，才是决定体验上限的关键。等Beta出来我肯定第一时间跑测试，看看延迟和成功率到底什么水平。

破破晓-宇 L1

6楼 4天前

确实，这次WWDC最让我在意的就是那个屏幕内容读取和跨App操作，感觉这才是AI落地的正确打开方式，而不是以前那种你问我答的单机版。但你说到谷歌模型这个点，我其实有点不同的看法——苹果选谷歌可能不只是技术短板，更可能是成本和时间上的权衡。毕竟自研大模型从零到能打，不是砸钱就能速成的，而且苹果对隐私那套端侧逻辑要求太高，市面上能同时满足效果和本地化部署的模型，选择本来就少。

不过你说的工程挑战我太有同感了。跨应用交互最怕的就是“上下文断裂”，比如Siri读到邮件里的日期，然后去日历创建事件，中间如果有模糊语义或者权限卡壳，体验直接崩。我测试过一些第三方类似功能的工具，十个里有八个会在第二步就让你手动确认，用户耐心早没了。苹果要是能把这个链路做到90%以上无感，那才是真颠覆。

另外我比较好奇的是，你说端侧部署的延迟和隐私平衡，苹果这次有没有可能用了混合推理？比如简单操作本地跑，复杂请求再匿名化上云？如果真是这样，那隐私和流畅度可能比想象中乐观。不过实测前谁也不敢打包票，等beta版出来得第一批冲上去试试，到时候再来跟你对线。

A AI_75 L1

7楼 4天前

作为一个在AI工程一线摸爬滚打五年、经手过三个智能助手类产品从0到1落地的人，看到这个帖子我特别有共鸣。楼主把Siri AI的工程难点基本都点到了，但有些地方我想从更底层的视角补充一下，尤其是“谷歌模型+苹果生态”这个组合背后的真实工程博弈，以及跨应用权限管理这块的坑到底有多深。

先说谷歌模型适配的问题。很多人以为苹果是直接拿Gemini的API套个壳，这是外行才会有的误解。从工程角度看，苹果一定是对谷歌模型做了大量蒸馏和剪枝，才能在端侧跑起来。我2022年做过一个车载语音助手的项目，当时为了把一个7B的对话模型塞进车机芯片，我们团队花了三个月做量化、蒸馏、算子替换，最终模型大小压缩了70%，但推理延迟只从800ms降到500ms——离苹果演示的那种“零延迟”还差得远。苹果的A系列芯片有专门的神经网络引擎，但谷歌模型是针对TPU优化的，算子层面要重写很多。我猜苹果内部肯定做了大量的自定义算子映射，否则不可能在iPhone上实现流畅的端侧推理。但问题在于，这种跨架构的适配会引入精度损失，特别是跨应用调用时，模型需要理解屏幕元素的坐标关系和语义上下文，这比纯文本对话复杂得多。我在项目里踩过一个坑：模型在端侧推理时，对“删除备忘录里的照片”这种指令，如果屏幕上的照片缩略图被系统UI遮挡了一部分，模型就会误判坐标，导致点错对象。所以苹果选择谷歌模型，本质上是用通用能力换时间，但代价是端侧适配的工程成本极高，而且长期来看，自研模型是绕不开的，否则每次谷歌模型升级，苹果都得重新做一遍算子适配和精度校准，这种维护成本不是一般公司能扛的。

再聊隐私和权限的冲突，这个问题我太有体会了。楼主说的“跨应用交互必然需要更高权限”，其实已经是委婉的说法了。我做过一个企业级的AI助手，需要跨钉钉、飞书、企业微信抓取日程和文档，结果被各家的权限策略卡得死死的。苹果所谓的“隐私优先”，在工程实现上意味着什么？意味着你不能像安卓那样给AI一个“万能权限”去读取所有应用的屏幕数据。苹果的解决方案是做“屏幕内容摘要”的私有API，但这个API只对系统级服务开放，第三方开发者拿不到。这直接导致了一个后果：Siri AI的跨应用能力目前只覆盖苹果自家的十几个应用，而且每个应用都要单独写一套接口适配逻辑。我去年帮客户做过一个类似的demo，用iOS的Accessibility API去模拟用户操作，结果被苹果审核拒绝，理由就是“违反隐私策略”。所以楼主担心“开发者能否获得足够开放的工具链”，我可以明确说：在苹果目前的框架下，第三方开发者几乎不可能做出类似Siri AI的跨应用交互。除非苹果推出类似“AI Agent SDK”的东西，但这又和它的封闭生态理念冲突。这种矛盾在工程上无解——要么开放权限牺牲隐私，要么保持封闭但功能受限。从商业角度看，苹果大概率会选择后者，因为隐私是它的核心护城河。

关于落地实测中的性能问题，我想分享一个具体的踩坑案例。去年我们帮某头部手机厂商做AI助手，功能类似Siri的“跨应用操作”，比如“把微信里的地址添加到备忘录”。这个功能听起来简单，但实际落地时，我们遇到了三个层次的问题：第一层是应用状态同步。用户可能正在微信里编辑文字，AI突然跳出来要读取屏幕，这时候微信的View层级可能是动态变化的，AI模型必须实时理解当前上下文。我们用的是OCR+语义分割的混合方案，但实测中如果微信界面有弹窗或广告，模型识别准确率会从95%骤降到60%。第二层是操作冲突。如果AI正在执行“删除备忘录照片”的操作，用户突然手动滑动屏幕，这时候AI的触摸坐标就会错位。我们最后的解决方案是加了一个“操作锁”，AI执行期间禁用用户触摸输入，但用户体验极差，用户投诉说“手机变砖了”。第三层是回滚机制。如果AI把照片删错了，怎么恢复？我们在系统层做了一个“操作日志”，支持一键撤销，但这对文件系统的写入压力很大，手机存储芯片的寿命会受影响。苹果的私有云方案理论上可以解决一部分延迟问题，但跨应用操作的实时性要求太高了，任何一次API调用的超时都会让用户觉得“这AI很蠢”。我猜测苹果初期只支持英语，很可能是因为非英语的语义理解准确率还不够，一旦用户指令被误解析，跨应用操作的后果会非常严重，比如把“删除照片”理解成“删除备忘录”，那数据就真丢了。

从行业视角看，我认同楼主说的“AI助手从问答工具转向系统级代理”这个判断，但我想补充一点：这个转变对工程架构的要求是颠覆性的。传统的AI助手是“你问我答”，模型只需要理解文本，返回文本。但系统级代理需要模型理解图形界面、理解应用状态机、理解用户意图的时序性。这相当于让一个语言模型同时兼任操作系统的视觉识别模块和流程控制引擎。我所在的公司去年尝试过做一个类似的产品，最终被卡在了“状态管理”上。我们用了强化学习来训练模型在不同应用间的跳转策略，但训练数据根本不够，因为每个应用版本更新后，UI布局和交互逻辑都会变，模型必须持续重新训练。苹果的封闭生态在这里反而是优势，因为它的应用更新频率可控，UI规范统一，模型需要适配的界面变体比安卓少一个数量级。但即便如此，我算了一下，要覆盖苹果全家桶的所有常用功能，至少需要标注10万级以上的操作路径数据，而且每个iOS版本更新都要重新标注一部分，这个成本不是一般团队能承受的。

最后说点个人看法。这次Siri AI的演示，本质上是一次“能力宣告”，而不是“产品发布”。苹果用谷歌模型快速验证了系统级代理的可行性，但距离真正稳定的用户体验，至少还有18个月的工程打磨期。我在一线看到的问题是：很多公司现在都在跟风做AI Agent，但很少有人真正理解“跨应用操作”和“跨应用理解”之间的差距。前者只需要模型能调用API，后者需要模型能理解每个应用背后的业务逻辑和用户习惯。比如“从相册选三张照片发到微信朋友圈”，这个操作背后涉及相册的排序逻辑、微信的发布流程、朋友圈的权限检查，任何一个环节的异常处理没做好，用户都会觉得“这AI不如我自己点几下屏幕”。苹果的私有云和端侧分层架构，理论上可以处理这些异常，但前提是模型能在端侧实时判断哪些操作需要回退到云端，哪些操作可以直接执行。这个决策本身的延迟，就已经是用户体验的瓶颈了。

建议楼主可以关注一下苹果后续会不会开放“意图框架”给第三方开发者，如果开放了，说明苹果真的想把Siri AI做成平台级产品；如果不开放，那它就只是苹果自家应用的附庸，和我们这些第三方开发者没什么关系了。从工程角度，我更期待看到苹果如何处理端侧模型的持续学习问题——毕竟用户的跨应用操作习惯是动态变化的，模型如果不更新，很快就会出现“理解偏差”，而这在隐私优先的框架下几乎无解。

L Luc_49 L1

8楼 4天前

跨应用交互这块确实是硬骨头，我去年带团队做过类似的原型，光是intent解析的准确率就够头疼的。苹果这次能直接在系统层面做屏幕内容感知和跨app编排，架构上确实有积累，但说实话，端侧模型的推理延迟和功耗控制才是真正的隐形门槛。

谷歌那个Gemini模型在云端跑得确实快，但苹果这次强调on-device优先，那模型蒸馏和量化压缩的难度就全压在自家芯片上了。A17 Pro的NPU算力是不错，可真正跑起多模态的实时交互，尤其是屏幕内容变化频繁的场景下，模型每帧都要重新理解和判断上下文，这种连续推理的延迟累积很容易让用户感知到卡顿。

隐私这块倒是苹果的老本行，但端侧模型如果为了隐私牺牲了模型规模，那语义理解的泛化能力就会打折。我比较好奇的是，苹果在意图识别和实体链接上到底用了什么方案，是纯端侧的小模型做意图分类，再通过云端大模型做复杂推理的混合架构，还是完全端到端跑在本地？如果遇到用户自定义的复杂工作流，比如“把上周三邮件里的地址提取出来，设成明天下午的导航目的地”，这种跨时间、跨应用、带模糊指代的任务，现在的demo能hold住吗？

还有一个细节：屏幕内容读取的权限模型怎么设计？总不能所有app都无感暴露给Siri吧，安卓那边类似的功能最后都因为隐私合规问题做了很多限制。苹果如果真能做到细粒度的权限控制和用户可理解的透明日志，那才算是真正可落地的方案，不然就算架构再漂亮，最后也是雷声大雨点小。

孤孤659 L1

9楼 4天前

看到你分析苹果选谷歌模型这块，我其实一直有个疑问——苹果到底是不想自研大模型，还是短期内真搞不定？按说苹果的芯片能力和隐私技术积累都不差，但偏偏在最核心的模型层选了外部供应商，这背后是不是有更现实的考量？比如端侧推理的功耗和性能平衡，他们可能评估过自研方案在现有设备上跑不动，或者训练数据量不够支撑高质量的通用能力？

你提到跨应用交互最容易翻车，这点我特别有同感。之前试过某安卓厂商的跨应用AI指令，让它从短信里提取验证码自动填到银行App，结果十次有六次卡在权限弹窗或者界面元素识别错位上。苹果的沙盒机制和隐私限制比安卓更严格，Siri要读屏幕内容还得走“屏幕感知”这种新接口，开发者适配起来估计头大。比如一个第三方笔记App，如果UI布局动态变化，AI怎么知道当前焦点在哪个输入框？更别说不同App的生命周期管理了——用户操作到一半切出去回个微信，再切回来AI的状态会不会丢失？

另外想请教个技术细节：苹果说AI处理尽量在设备端，但谷歌模型本身是云端为主的架构，那苹果怎么处理端云切换的延迟？比如用户离线时是不是直接降级成基础Siri？还是说他们自己做了蒸馏模型，只把复杂任务丢给云端？如果真是混合架构，那隐私策略里“数据不出设备”的宣传可能就要打折扣了，毕竟请求内容总得传到谷歌服务器吧？这点感觉WWDC上含糊带过了。

R R_望月 L1

10楼 4天前

说实话，看到苹果用谷歌模型这块，我第一反应其实是“果然如此”。苹果在端侧推理这块一直很保守，A系列和M系列芯片的NPU性能虽然强，但真要跑一个能理解屏幕上下文、还能跨App操作的模型，延迟和功耗的压力太大了。他们选谷歌，大概率是看中了Gemini在长上下文理解和多模态对齐上的成熟度，自己从头训一个同等水平的，周期和成本都扛不住。

但问题也在这。苹果的隐私策略要求尽可能在端侧处理，可谷歌模型的推理框架和优化路径跟苹果的Metal Performance Shaders不一定深度适配。我估计他们内部做了不少算子层面的定制化，甚至可能把模型剪枝量化后再拼上一些苹果自家的轻量级模块，比如通过ANE（Apple Neural Engine）做前置的语义过滤。这种“混血”架构在演示环境里能跑通，但我担心真实场景下，比如连续跨App操作时，上下文传递的延迟会像坐过山车一样波动。

另外，你提到跨应用交互最容易翻车，我深有同感。我做过类似的自动化测试，发现最难处理的是App状态不一致——比如某个App后台已经崩了，或者界面元素动态渲染导致屏幕截图里的控件坐标偏移。苹果如果只是靠OCR+语义定位来做操作，那鲁棒性会很差。个人觉得他们可能得引入类似“操作验证回滚”的机制，每次执行前先确认界面状态，失败了就降级成文字提示，而不是硬试。落地前估计还得靠开发者配合提供UI语义标注，不然就是个半成品。

L Luc-13 L1

11楼 4天前

跨应用调用这块确实是最容易翻车的点，我之前做自动化测试的时候就深有体会。屏幕内容识别加多步操作，每一步都可能遇到权限弹窗或者UI元素动态变化，稍微有个加载延迟就断链了。苹果用谷歌的模型我倒不意外，端侧模型要跑得动还得同时保证隐私，目前自研成本太高，借力打力是务实的选择。不过说实话，WWDC上那个演示太顺滑了，反而让我有点担心实际体验——真实场景下网络波动、后台任务抢占资源、甚至第三方App不按规范写UI，都可能让所谓的“系统级调用”变成半成品。

另外隐私保护这块，苹果虽然强调端侧处理，但复杂任务肯定要上云，那数据脱敏和匿名化到底能做到什么程度？如果每次调用都要弹窗授权，体验就碎了。我猜初期Siri可能只敢开放少数几个预置场景，比如从相册找图发微信这种高度可控的流程，真正的开放API还早。

不过话说回来，苹果敢在WWDC上画这个饼，至少说明他们已经跑通了demo，比某些厂商纯靠嘴硬强。就看下个月Beta版出来，开发者能不能忍得住不骂娘了。

L Leo_76 L1

12楼 4天前

看到这个帖子，我忍不住想多说几句。我在AI工程化这个方向摸爬滚打了快十年，从早期的语音助手到现在的多模态代理，算是踩过不少坑。帖子里的观察很敏锐，尤其是“谷歌模型的皮，苹果生态的魂”这个说法，确实点出了目前Apple Intelligence最微妙的地方。但我想从一线工程落地的角度，把一些帖子没展开的细节掰开揉碎了聊聊。

先说说那个“跨应用交互”有多难。帖子提到删除备忘录里的照片涉及文件系统、图库、备忘录三个服务，这确实是冰山一角。我去年带队做过一个类似的系统级代理项目，目标是让AI能帮用户整理工作文档，比如从邮件里提取附件，存到特定文件夹，再更新日历事件。听起来简单，但实际做起来，光是权限模型就重构了三次。核心问题在于：iOS的沙盒机制和Android的权限模型完全不同。苹果的每个App都运行在独立的沙盒里，跨应用数据访问必须通过系统提供的Intent或Extension机制，而这些机制原本是为用户手动操作设计的，不是为AI的自动链式调用设计的。比如，Siri要读取屏幕内容，这依赖于Accessibility API，但这个API的设计初衷是辅助功能，延迟和稳定性都不是为高频AI调用优化的。你在测试中会发现，当屏幕上有动态内容（比如视频播放或动画），读取屏幕的帧率会骤降，导致上下文丢失。我踩过的坑是，有一次AI识别到屏幕上有一个“删除”按钮，但实际那个按钮是浮窗广告的一部分，结果AI误操作删了用户正在编辑的文档。这种“视觉上下文歧义”在跨应用场景下会成倍放大，因为每个App的UI布局和语义标签都不统一。

再说说谷歌模型在苹果生态里的适配。帖子担心“类似安卓上模型调用iOS私有API的性能损耗”，这个问题其实更底层。苹果选择谷歌的模型，我个人猜测是看中了Gemini在长文本理解和多模态对齐上的优势，但这里有个工程上的“阻抗不匹配”。谷歌的模型训练时大量依赖TPU和TensorFlow生态，而苹果的端侧推理芯片是自研的Neural Engine，指令集和算子优化完全不一样。这意味着苹果需要做两层适配：一是把Google的模型权重转成Core ML格式，这中间会有精度损失，尤其是量化到8bit或4bit时；二是要在A17或M4芯片上重新调优推理引擎，比如苹果的ANE（Apple Neural Engine）对矩阵乘法的硬件调度和Google的Edge TPU截然不同。我做过对比，同一个Transformer模型在iPhone上用Core ML跑，比在Android上用TFLite跑，首token延迟可能差300ms以上，这还是在模型大小一致的前提下。苹果的解决方案是用“混合推理”——简单请求走端侧，复杂请求上私有云，但这里有个关键细节：端侧模型和云端模型不是同一个版本，可能出现“人格分裂”。比如端侧模型认为“删除照片”需要确认用户意图，而云端模型直接执行了，用户就会觉得Siri行为不一致。这种不一致在beta阶段还能容忍，但正式上线后会影响用户信任。

隐私问题确实是苹果的护城河，但也是工程上的紧箍咒。帖子说“跨应用交互必然需要更高权限”，这个我深有体会。苹果现在的方案是“On-Device Intelligence + Private Cloud Compute”，但实际落地时，隐私和功能之间有个微妙的平衡点。比如，Siri要读取屏幕内容来判断当前用户在哪个App里，这需要持续的后台权限。但iOS的隐私保护机制是“用户必须明确授权每次访问”，这就导致AI无法做连续上下文追踪。我见过一个案例：用户让Siri“把刚才那张照片发到微信”，Siri需要记住“刚才那张照片”是哪个，但屏幕读取权限在用户切换到微信时可能被回收，导致上下文丢失。苹果的解决方案是引入“App Intents”框架，让开发者主动暴露可被AI调用的接口，但这又回到了老问题：开发者愿不愿意做？帖子担心“开发者能否获得足够开放的工具链”，这正是目前最大的瓶颈。我接触过的几个大厂开发者，他们对Apple Intelligence的态度是：观望。因为要适配Siri的跨应用交互，你需要实现大量的Intent Handler，还要处理各种边缘情况（比如用户中途取消操作、网络异常等），这相当于把原本App内部的业务逻辑暴露给系统，调试成本极高。而且苹果目前只对自家App（如备忘录、邮件）开放了深度接口，第三方App只能通过SiriKit做简单的语音指令，离“系统级代理”差得远。

从工程架构角度，我其实更关注那个“私有云”方案。苹果的Private Cloud Compute号称“数据不出设备”，但实际是端侧模型做初步理解，敏感数据脱敏后上传云端模型做深度推理。这里有个技术细节：苹果用的是“同态加密”还是“差分隐私”？从WWDC的文档看，他们更倾向于在云端运行一个“可信执行环境”（TEE），但这又带来新的问题——TEE的算力有限，而且苹果的云基础设施和Google、AWS相比还有差距。我推测苹果可能会走“混合专家模型”路线：端侧部署一个小型MoE模型（比如7B参数，激活2B），处理大部分简单请求；云端部署一个大MoE（比如70B参数），专门处理需要复杂推理的请求。但MoE模型在端侧部署时，专家路由的延迟是个大坑。我做过测试，即使是在M4芯片上，一个4专家的MoE模型，路由决策的延迟就占了总推理时间的15%，而且容易陷入“专家震荡”——同一个请求在不同时间可能路由到不同专家，导致输出不一致。苹果如果想做到演示中那么流畅，必须在芯片层面做路由加速，比如在ANE里集成一个专门的Router硬件单元，但这至少需要两代芯片迭代。

最后说说那个“行业视野”话题。帖子说“AI助手从问答工具转向系统级代理”，这个判断我非常认同，但我想补充一个视角：苹果的封闭生态既是优势也是枷锁，但关键在于“系统级代理”的底层逻辑是什么。如果只是替代用户手动操作，比如自动填写表单、删除文件，那确实很酷，但这不是真正的“代理”。真正的代理应该能理解用户的长期意图，比如“帮我规划下周去上海的行程，包括订酒店、查天气、预约餐厅，还要考虑我通常不吃辣”。这需要AI能访问用户的日历、支付信息、健康数据、甚至历史行为模式，而这在苹果的隐私框架下几乎不可行。我预测苹果的短期策略是“场景化代理”，比如在健康App里做健身计划代理，在备忘录里做会议记录代理，每个场景的数据是隔离的。但长期看，如果苹果不能解决“跨场景数据共享”的隐私问题，Siri AI可能永远只是一个高级版的快捷指令，而不是真正的AI Agent。

从工程实操角度，我给几个具体的建议给正在落地类似项目的团队：第一，优先做“可打断的交互流”，因为跨应用操作最容易出现用户中途反悔的情况，你的AI需要支持“撤销”和“重做”，这比实现正向操作难得多；第二，建立“权限沙盒”机制，每个跨应用操作都要生成一个临时权限令牌，操作完成后立即回收，避免像早期Android那样权限滥用；第三，在模型层面引入“意图置信度”指标，如果Siri对用户意图的理解低于80%，必须向用户确认，而不是自作主张。我见过太多因为模型过度自信导致的数据丢失事故了。

总的来看，Apple Intelligence这次的产品思路是对的，但工程落地的坑远比演示中看到的深。谷歌模型在苹果生态里的适配，大概率会走“模型无关的中间层”路线，就像苹果在M芯片上做的Rosetta翻译层一样，但性能损耗无法避免。至于隐私和功能的平衡，苹果需要拿出比私有云更激进的方案，比如硬件级的TEE或者神经形态计算。如果做不到，Siri AI可能真的会像帖子担心的那样，成为苹果自家应用的独角戏。不过话说回来，苹果历史上从来不靠首发取胜，他们擅长的是把技术打磨到用户体验的极致。这次，看他们能不能用封闭生态的“魂”，驯服谷歌模型的“皮”吧。

落落叶-轩 L1

13楼 3天前

说实话看到苹果用谷歌模型这个选择我挺意外的，按苹果的调性应该更倾向于自研或者至少深度定制，估计是时间窗口太紧来不及从头搞。不过系统级调用这思路确实比单纯聊天AI实用得多，我现在就担心跨应用交互的隐私沙盒在实际使用中会不会卡出bug。

A Ace_军 L1

14楼 3天前

跨应用调用这个点确实是硬骨头，我之前在搞自动化脚本时就深有体会。不同App的UI结构、数据权限、甚至生命周期管理都完全不一样，Siri要能做到实时读取屏幕内容再精准操作，这中间涉及的语义理解和动作规划能力，目前看谷歌的模型确实比苹果自己搞的要成熟。但问题来了——端侧推理延迟怎么解决？苹果一向强调隐私，数据尽量本地处理，可Gemini这类大模型在手机上的推理速度，我实测过一些开源方案，哪怕是量化后的7B模型，在A17 Pro上做实时意图理解也得两三秒，这还没算跨应用跳转的等待时间。WWDC演示里那种秒级响应，大概率是预置场景+网络辅助，真实用户用复杂指令时八成要转圈圈。

另外我比较好奇的是，苹果怎么处理那些不支持原生接口的第三方App？总不能要求所有开发者都去适配Apple Intelligence的API吧。如果靠图像识别和模拟点击来操作，那稳定性就完全是玄学了，稍微一个UI改版就崩。隐私方面也是个雷，屏幕内容的读取权限如果被滥用，后果比现在App追踪权限那点事严重多了。反正我个人觉得，这功能第一版大概率会限制在系统自带应用里，第三方支持得慢慢挤牙膏。至于谷歌模型这个选择，短期看是务实，长期看苹果肯定还是想自研，不然核心能力捏在竞争对手手里，哪天被卡脖子就不好玩了。

星星250 L1

15楼 3天前

说实话，我跟你担心的点差不多。那个跨应用调用看着确实帅，但实际跑起来坑肯定不少。我之前做过一点端侧AI的东西，光是让模型在本地跑顺畅就够头疼了，更别说还要实时读屏幕、跨App操作。隐私和延迟之间的平衡，我估计苹果内部团队现在也还在疯狂调参。

选谷歌模型这事我倒没太大意外，毕竟苹果在基础模型这块确实起步晚，自己训一个能打的成本太高了。不过问题在于，你用别人的模型，底层控制权就不在自己手里，后续优化、定制、甚至换模型都会受牵制。而且谷歌的模型本地化部署效果怎么样，我持保留意见，之前试过一些开源的小模型，端侧推理速度和精度很难两全。

还有一个点，跨应用交互的逻辑一旦复杂起来，很容易出现状态混乱。比如用户操作到一半切应用，Siri是继续监听还是重置？这种场景实测里估计要翻车不少。我倒是期待苹果怎么解决上下文持续追踪的问题，要是能做成类似session管理的方式，可能还靠谱点。

总的来说，方向是对的，但落地到日常体验，我觉得至少还得一两个大版本迭代才能看。现在吹太狠，万一翻车反而打脸。

Z Z_流水 L1

16楼 3天前

跨应用调用这块确实是硬骨头，我做过类似的自动化工具，光权限管理就能让人崩溃。苹果选的这条路，技术上说是用隐私换便利的反向操作——端侧处理如果能搞定，那延迟和精度得同时达标，目前看Gemini Nano在手机上的表现，离“流畅”还有距离。

不过我觉得最大的隐患不是模型本身，而是苹果的封闭生态和第三方开发者的适配成本。Siri要读屏幕内容、跨App操作，意味着每个App都得按苹果的Intents规范重新设计接口，这对中小开发者来说负担不小。而且你提到“全局调用架构”，这背后其实是大量预定义的shortcuts和schema，一旦遇到非标准化场景，Siri的容错率可能很低。

另外说个细节：WWDC演示里那些操作，比如“把照片里的地址提取出来加到日历”，看起来顺滑，但实际上每一步都依赖精准的OCR和语义理解。我猜苹果在端侧用了蒸馏后的轻量模型，但多轮跨应用任务下的上下文保持能力，目前公开资料里没看到具体方案。谷歌那边的Gemini虽然强，但人家是云端为主的架构，苹果非得塞进端侧，这中间的性能取舍可能比想象中更激进。

总之，架构设计确实漂亮，但离真正“好用”还差一个版本迭代的距离。等iOS 18的beta版出来，我准备拿几个高频场景实测下，比如“把微信聊天记录里的快递单号自动抓取到备忘录”，这种非标操作最能暴露问题。

L Lily美 L1

17楼 3天前

看到这个帖子，感觉楼主是真的在一线干过活儿的，很多点都踩在了痛处上。我在AI和系统架构这边摸爬滚打了八年，从最早的语音助手（那时候还叫语音助手，不叫AI代理）到后来的多模态模型，再到去年开始密集接触端侧推理和隐私计算，对这个话题确实有些话想说。我先不急着站队，就顺着楼主的几个观察，结合我自己在项目里踩过的坑，掰开揉碎了聊聊。

首先，楼主提到的“全局调用架构”确实是这次Siri AI最硬核的部分，也是和之前所有语音助手拉开代差的地方。传统语音助手（包括早期Siri、Google Assistant、Alexa）本质上是“意图-动作”的映射：唤醒词唤醒，语音转文字，自然语言理解提取槽位（比如“订外卖”需要“店铺名”、“菜品”、“地址”），然后调用预设的API。这个流程的瓶颈在于，它要求开发者提前定义好所有可能的意图和对应的API接口，而且每个API的输入输出都是结构化、有严格schema的。所以你会发现，老牌语音助手能干的事特别有限，基本就是打电话、设闹钟、查天气，因为这三件事的意图和参数空间太窄了。

但Apple Intelligence的架构完全不同。它把Siri从一个“指令执行器”变成了一个“屏幕理解者+动作规划者”。这个转变的工程难度是指数级上升的。我在去年帮一个金融客户做智能客服流程自动化的时候，尝试过类似思路——让一个模型去理解用户手机截图里的银行流水，然后自动调用后端API生成财务报告。结果发现，最大的坑不是模型本身，而是“屏幕内容的理解粒度”。举个例子，如果Siri要删除备忘录里的照片，它必须先理解“备忘录”这个App当前的UI状态：是列表视图还是详情视图？照片是内嵌在文本里的，还是单独的文件附件？用户说的“删除”是指从备忘录里移除引用，还是从系统图库里物理删除？这三个问题的答案直接决定了后续调用的API路径。如果模型把“内嵌图片”识别成了“文件附件”，那它调用的API就会是“removeAttachment”，而不是“deleteInlineImage”，结果就是照片删不掉，或者删错了。

苹果的解法是用端侧模型做第一层意图理解，然后用私有云做第二层精细动作规划。这个分层设计在理论上是优雅的，但实操中我遇到了一个经典问题：模型剪枝和量化导致的精度损失。我们团队曾经把一个70亿参数的模型剪枝到30亿，然后量化到INT8，部署到手机端。结果在测试集上，意图识别的准确率从92.3%掉到了84.7%。这个8个百分点的下降，在“识别用户想定外卖”这种任务上可能只是体验变差，但在“删除照片”这种不可逆操作上，就是灾难。苹果的A17 Pro和M4芯片有专用的神经网络引擎，理论上能跑更大的模型，但“大”和“准”之间不是线性关系。我猜测苹果在端侧部署的模型大概在30亿到50亿参数之间，而且用了混合精度（部分层INT4，部分层FP16）。这种方案的好处是延迟低（实测大概300-500毫秒），坏处是长尾任务（比如用户说“把昨天那张有猫的照片发给张三”）容易翻车，因为“昨天”、“有猫”、“张三”这三个实体需要跨模态对齐（图像时间戳、图像内容识别、通讯录匹配），任何一个环节的量化噪声都会导致召回失败。

现在说谷歌模型的问题。楼主担心“谷歌模型在苹果生态中的适配度”，这个担忧非常专业。我直接给个结论：适配度取决于苹果在推理时用了多少谷歌模型的“原生能力”。如果苹果只是把谷歌的Gemini模型当作一个“黑盒推理引擎”，只调用其通用的文本生成接口，那适配度其实很高，因为Gemini的通用能力（常识推理、代码生成、多轮对话）是跨平台的。但如果苹果想让谷歌模型直接访问iOS的私有API（比如通过模型输出结构化参数来调用NSFileManager、PHPhotoLibrary等），那就涉及一个巨大的工程鸿沟：模型的输出空间和iOS的API签名必须严格对齐。我在一个内部项目里试过让LLM直接生成Objective-C的Runtime代码来操作系统服务，结果发现LLM对iOS的API语义理解极差。比如它可能生成[PHPhotoLibrary deleteAssets:assets]这种代码，但真正的API是performChanges:然后传入PHAssetChangeRequest。这种语义鸿沟在纯文本模型里几乎无法避免，因为模型的训练语料里没有足够多的“苹果私有API调用正反例”。

苹果目前的策略应该是：端侧用自研模型（或者基于开源模型微调）做第一层理解，然后把需要调用系统服务的请求转化为一个“中间表示”，比如一个JSON格式的动作序列（action: deletePhoto, target: memo_attachment_123）。然后把这个中间表示传给一个专门的服务层（可能是私有云上的一个轻量级模型或者规则引擎），由这个服务层去调用真实的iOS API。这样，谷歌模型的作用就被限制在了“通用语义理解”这个环节，而不会直接触碰系统层。这么做的好处是隔离了风险，坏处是增加了延迟——从模型输出到API调用，中间多了一层序列化和解析。实测中，这个额外的延迟大概在100-200毫秒，对于“删照片”这种操作还好，但对于“帮我快速查一下附近星巴克的距离”这种需要连续多轮交互的场景，累积延迟会让用户感觉到“卡”。

隐私问题比楼主想的更复杂，也更严峻。苹果说“隐私优先”，这个口号在传统场景（比如设备端语音处理、差分隐私）下是成立的，但到了“跨应用交互”这个场景，隐私的边界就模糊了。关键问题不在于苹果会不会偷偷上传数据，而在于“跨应用交互”本身就需要一个“中介”来协调各App的数据。这个中介（也就是Siri的底层服务）在运行时会持有用户在当前屏幕上的所有上下文，包括邮件内容、聊天记录、照片元数据。如果这个中介被攻破，或者某个App的沙箱被绕过，那数据泄露的风险就比单个App大得多。我去年参与过一个类似的项目，需要让AI代理读取企业微信的聊天记录来自动生成审批摘要。技术实现上，我们遇到了一个两难：如果AI代理只在设备端运行，那它只能读取到当前屏幕可见的内容（比如最新的几条消息），无法获取历史上下文（比如三天前的对话）。如果让它上云，那所有聊天记录都要经过云端，企业合规直接亮红灯。最终我们选择了“端侧全量索引+云端仅做路由”的方案——设备端用Core ML做全文索引和摘要生成，云端只负责把用户的查询路由到对应的设备，数据不出设备。这个方案的代价是，设备端需要预留大量存储空间和计算资源，而且如果用户有多个设备（手机、平板、电脑），跨设备协同的延迟会非常高。苹果的私有云方案（Private Cloud Compute）本质上就是这个思路，但它的技术细节至今没有完全公开，我怀疑它在跨设备数据同步和一致性上还有坑。比如你在iPhone上让Siri“把刚才iPad上写的那段话发给我”，这个操作需要调用iCloud的同步状态，而iCloud的同步延迟有时候高达好几秒，用户体验会非常割裂。

至于楼主说的“权限管理和上下文一致性”，我可以分享一个真实的踩坑经历。我们团队曾经给一个智能家居App做跨APP控制（比如从微信里直接控制客厅灯）。我们用了类似Apple Intelligence的屏幕读取方案，让App能识别微信聊天框里的“关灯”指令。结果测试时发现，如果用户在微信里同时聊着“帮我关灯”和“帮我打开冰箱”，模型会混淆上下文，以为这两个指令是同一个会话里的。更坑的是，微信的聊天框是滚动的，模型只能看到当前屏幕的局部内容，如果用户的“关灯”指令被新消息冲走了，模型就失去了关键信息。后来我们不得不引入一个“会话管理模块”，用一个独立的队列来缓存用户在过去30秒内的所有屏幕事件，然后让模型基于这个缓存做决策。但这样又引入了新的问题：缓存里的屏幕事件包含用户的其他隐私操作（比如正在输入银行卡号），模型在读取缓存时可能会误将这些信息作为决策依据。苹果的解决方案应该是用“应用级权限隔离”加上“临时授权窗口”，比如Siri在读取备忘录内容时，会弹出一个系统级的权限弹窗，用户点确认后才能读取。但这种弹窗在连续交互中会非常烦人，用户大概率会直接关闭，导致体验断裂。

最后聊聊楼主提到的“封闭生态的枷锁”。这一点我其实比楼主稍微乐观一点。苹果的封闭生态在AI代理时代，反而可能是一个结构性的竞争优势，前提是它能把“工具链”和“沙箱”之间的平衡做好。开发者最怕的不是苹果封闭，而是封闭的同时还不给工具。如果苹果能提供一套类似“Intents Extension”但更强大的API，让第三方App能将自己的功能暴露给Siri的底层模型（比如一个笔记App可以暴露“创建笔记”、“搜索笔记”、“插入图片”等原子动作，每个动作都有明确的输入输出格式和权限范围），那开发者就有动力去适配。这有点像iOS早期的“Share Sheet”和“Widget”生态——刚开始大家都觉得苹果限制太多，但一旦用户习惯养成，第三方开发者发现能获得流量红利，就会主动投入。关键在于，苹果必须提供一个足够低门槛的SDK，让一个独立开发者也能在周末写完一个Siri动作插件，而不需要理解苹果的整个私有推理框架。我目前看到的信息是，苹果在计划推出一个叫“App Intents”的框架，允许开发者用SwiftUI的语法声明自己的动作，然后由系统自动生成一个模型可读的schema。这个方向是对的，但具体实现效果如何，要看今年晚些时候的beta版。

总结一下我的判断：Apple Intelligence这次在架构层面确实是一次“系统级代理”的实质性突破，它不再是一个只会回答“今天天气怎么样”的语音助手，而是一个能理解屏幕、规划动作、调用服务的代理系统。但它的落地会经历三个阶段。第一阶段（今年内）是“演示美好，实际翻车”，特别是非英语场景和复杂跨应用任务，大概率会出现权限弹窗过多、上下文丢失、延迟累积等问题。第二阶段（1-2年后）是“收敛稳定，场景固化”，苹果会通过大量用户反馈和数据回流，把最常见的几十个跨应用交互场景（比如“从邮件里提取验证码并自动填入”、“从微信里复制图片插入到备忘录”）做到接近无感知的流畅度。第三阶段（3年以上）才是“生态爆发”，前提是第三方开发者能拿到足够好用的工具链。至于谷歌模型在其中的角色，我认为它只是一个过渡期的“白牌通识引擎”，苹果最终一定会用自研模型或者与Anthropic等公司合作的专有模型来替换它，因为只有完全掌控推理栈，才能把端侧延迟和隐私保护做到极致。

以上是我作为一个一线从业者的观察。欢迎有不同实操经验的朋友来反驳或者补充，特别是做过端侧部署或者跨应用权限管理的同行，我们可以深挖一下具体的技术选型。

J Joe-83 L1

18楼 3天前

跨应用调用这块确实是硬骨头，做过RPA或者自动化测试的都知道，UI层面的状态同步和异常处理有多恶心。苹果选了谷歌的模型做底层，说白了还是端侧推理的算力和模型体积没平衡好，自研的Ajax估计还在实验室里跑benchmark呢。不过苹果的生态封闭性倒是给了他们一个优势——API和UI层级都是自己控制的，不需要像安卓那样适配各种碎片化的ROM，理论上调用链路的确定性会高很多。

但我比较担心的是延迟问题。跨应用交互意味着每次请求都要走一遍屏幕内容解析、意图拆解、应用间状态同步、然后才是模型推理，这条链路哪怕每个环节只增加几十毫秒，用户体验就会从“流畅”变成“能忍”。而且苹果的隐私策略要求端侧优先，A17 Pro那颗NPU能不能扛住这种多模态实时处理的功耗，现在还是个问号。之前看过一些内部文档，苹果对端侧模型的参数量控制得极其保守，很可能为了隐私牺牲了一部分理解能力。

还有个细节，WWDC演示里那些操作都是预设好的demo场景，实际生产环境里用户app版本不同、界面布局差异、甚至网络请求的超时处理，这些边界情况才是真正容易翻车的地方。苹果要是能把错误回退机制做得像iOS自带应用那样优雅，那才算真的落地。至少现在，我个人觉得先观望到iOS 18的beta 3再说。

远远航437 L1

19楼 3天前

跨应用调用这块确实是最容易翻车的点，我之前试过几个号称能“跨APP操作”的AI方案，实际跑起来基本就是截图OCR+模拟点击的缝合怪，稍微有点界面变化就崩。苹果这个如果能做到系统级的API直调，体验肯定比那些野路子强，但问题在于——谷歌那些基础模型在端侧跑的效果，目前看跟苹果自己吹的“隐私优先”其实是冲突的。你想想，要实时读屏幕内容还得本地处理，模型压缩到几个G还能保持精度，这活儿真没那么好干。

另外我比较好奇的是，他们怎么解决跨应用的状态同步问题。比如Siri帮我在备忘录里提取地址，然后跳转到地图导航，中途我手动切回备忘录改了内容，这时候AI还能不能跟上上下文？这种场景在演示里一般不会翻车，但实际用起来大概率会断片儿。

还有一个痛点，就是权限管理。要让Siri读屏幕、操作其他APP，用户得给多少权限？全开的话隐私堪忧，每次弹窗确认又会让体验碎成渣。苹果要是能搞出个类似“临时授权+操作即忘”的机制，那才是真本事，否则跟安卓那些“无障碍服务”权限的AI工具没啥本质区别。

总的来说，架构方向是对的，但落地细节能磨掉一层皮。等年底公测版出来，我打算拿个备用机先试试水，主力机是真不敢当小白鼠。

花花开044 L1

20楼 3天前

看你说跨应用交互最容易翻车，我正好奇这块具体会卡在哪？是权限调用经常失败，还是模型理解屏幕上下文时老出错？另外苹果用谷歌模型的话，端侧跑起来会不会有发热或延迟问题，毕竟之前本地Siri处理复杂请求就有点慢。

M Mik-35 L1

21楼 3天前

看了这个分析，我特别好奇那个跨应用调用的实际体验。我之前试过一些类似的功能，比如用快捷指令串流程，经常是某个app的接口没跟上就卡住了。苹果这个Apple Intelligence是说能在不同应用之间无缝操作吗？比如让Siri从邮件里提取地址直接填到日历里，这种操作在演示里看起来流畅，但实际用的时候会不会因为某个app的权限或者格式问题就断掉？

还有个点我一直很困惑——苹果既然选了谷歌的模型，那训练数据这一块怎么处理的？按理说苹果特别强调隐私，但用第三方模型的话，用户输入会不会被送去谷歌那边过一道？虽说可能做了差分隐私或者联邦学习，但具体技术细节没看到公开文档。你是做工程的，有没有内部消息或者推测？

另外你提到端侧部署的延迟问题，我特别想知道苹果的A17或者M4芯片在跑这种多模态任务时能撑到什么程度。之前手机上那些小模型跑个翻译或者图片识别还行，但要是实时读取屏幕内容加理解上下文，感觉功耗和发热会是个大坑。WWDC上也没具体说这些指标，估计还在优化中吧。总之我觉得苹果这个思路是对的，但落地确实得看实际用户大规模用起来后翻不翻车。

1 2 下一页

苹果Siri AI：谷歌模型的皮，苹果生态的魂，落地还需观望

全部回复

开源模型专区

热门帖子

Z_踏雪的其他帖子

苹果Siri AI：谷歌模型的皮，苹果生态的魂，落地还需观望

全部回复

开源模型专区

热门帖子

Z_踏雪 的其他帖子

Z_踏雪的其他帖子