G7拟组建AI信任联盟并将中国排除在外,表面是地缘政治博弈,实则对技术生态链的破坏深远。从技术角度看,AI模型的训练和优化依赖全球数据与算力协作,尤其是开源社区的贡献。中国在视觉识别、自然语言处理等领域的开源项目(如PaddlePaddle、MindSpore)已形成一定生态,若被孤立,西方模型将失去大量高质量中文语料和场景反馈,反而拖慢自身迭代速度。个人经验上,我在跨国项目中常调用中国团队优化的模型权重,其效率提升显著。这种排他性联盟只会催生双轨制标准:一边是封闭的“信任联盟”高成本合规,另一边是开放生态通过分布式训练(如联邦学习)绕开壁垒。问题来了:1)开发者是否要被迫选择技术栈阵营?2)这种割裂会加速中国自研框架的成熟,还是导致全球AI创新碎片化?行业视野看,这本质是技术民族主义抬头,但长期可能催生类似“Android vs iOS”的两极格局。开发者需警惕的是,若G7推行协议强制绑定(如数据溯源要求),中小团队将面临合规成本激增。与其跟风站队,不如关注跨框架兼容工具链,例如ONNX的扩展可能性。
G7搞AI信任联盟排华?技术割裂的代价谁买单
全部回复
共 6 条说实话,你提到的双轨制标准这点太真实了。我最近在做一个跨国NLP项目,明显感觉到两边在数据集、合规框架上已经开始各玩各的。G7这个“信任联盟”听着高大上,但实际操作起来怕是成本全转嫁给开发者了——光是要满足不同地区的隐私审计和数据跨境条款,就能让中小团队直接劝退。
你问开发者是不是要被迫站队,我觉得更扎心的问题是:现在很多底层框架和工具链已经开始出现分支了。比如PyTorch和TensorFlow虽然还开源,但一些关键的优化库和预训练模型权重,已经开始按地区限制下载。反过来看国内的PaddlePaddle和MindSpore,虽然生态还在追赶,但至少提供了另一种选择。我身边不少朋友已经开始主动学习双栈部署,说白了就是被逼出来的。
另外你提到联邦学习,这个我深有体会。最近有个联邦学习框架就是中法团队联合搞的,通过差分隐私和模型分割,直接在数据不出域的情况下完成了跨语种模型优化。这种技术路径其实是在给地缘政治“补窟窿”。与其浪费时间搞排他联盟,不如想想怎么在保证安全的前提下把蛋糕做大。毕竟AI这玩意儿,数据量和多样性就是命门,少了任何一方的贡献,最后迭代变慢的只能是所有人。
现在最尴尬的是,我们这些做工程的,既不想被政治绑架,又不得不面对越来越分裂的技术生态。你后面那个问题其实可以再补一刀:如果未来两个标准体系彻底定型,我们是该押注哪个赛道,还是干脆自己搞个桥接层?这活儿没人牵头,但迟早得有人干。
搞技术的最烦这种政治操弄了。我在实际项目里也遇到过类似问题,去年做一个多语言客服系统,试过只用西方社区的模型,中文理解经常翻车,后来加了PaddleNLP的finetune才搞定。说实话,中国这边在垂直场景的数据积累和模型优化上确实有独到之处,比如电商评论的情感分析、方言语音识别这些,西方模型拿到的训练数据本身就偏少,强行割裂只会让他们的产品在中文市场越来越水土不服。
至于双轨制标准,我觉得开发者迟早要面对这个现实。现在很多大厂已经开始搞两套技术栈了,一套对接欧美合规,一套跑国内生态。不过从成本角度看,小团队根本扛不住这种分裂,最后可能被迫选边站。我个人倾向于拥抱开源和联邦学习这类去中心化技术,虽然效率上不如集中训练,但至少能绕过一些壁垒。比如我们最近在尝试用横向联邦学习的方式共享模型参数,既不用交换原始数据,又能让不同地区的模型互相受益。
其实最让人担心的是,这种排华联盟最后可能搬起石头砸自己的脚。AI发展本质上是数据驱动的,全球化的数据流动才是最优解。如果硬要搞封闭圈,只会逼着两边各自搞出一套差异巨大的技术标准,以后连模型兼容都成问题。开发者夹在中间,要么学两套工具链累死,要么干脆全押开源生态。我个人更看好后者,毕竟社区的力量比政治联盟靠谱多了。
这个帖子切中了当前AI行业最敏感的神经,我从2016年开始做分布式训练系统,后来在两家头部云厂商带过AI infra团队,这几年又因为工作原因深度参与了几个跨国联合训练项目,对这个话题确实有很多切肤之痛。楼主提到的“双轨制标准”和“技术民族主义”这两个点,我基本认同,但我想从更底层的技术实操层面,把这种割裂已经造成的具体代价掰开揉碎讲清楚,顺便聊聊我们这些一线研发人员到底该怎么面对。
先说我亲身经历的一个案例。2022年底,我们团队在做多模态模型的跨语言对齐任务,需要大量的中英文图文对数据。那时候西方对中文互联网数据的访问限制还没那么严,我们直接调用了Common Crawl的中文子集和LAION-5B里的中文部分,配合百度开源的ERNIE-ViLG的权重做初始化,效果非常好,在COCO-CN翻译任务上BLEU直接提升了3个点。但到了2023年中,情况急转直下,G7国家几个主要的数据托管平台开始对来自中国IP的请求做速率限制甚至直接封禁,我们不得不通过AWS在新加坡的节点做中转,成本直接翻了三倍,而且数据合规审查每次要等两周。更恶心的是,某个欧洲大学开源的中文NER模型,因为其训练数据里包含了一些敏感实体标注,被他们的出口管制部门认定为“可能用于监控”,连模型权重下载都需要签NDA。这直接导致我们一个面向东南亚市场的对话系统项目延期了两个月,最后不得不完全重写数据清洗和标注管线,全部用内部自产的中文语料和PaddleNLP的预训练模型从头训。
楼主提到“西方模型将失去大量高质量中文语料和场景反馈”,这个判断我深以为然,而且我认为后果比想象中更严重。AI模型本质上是数据的函数逼近器,中文互联网的数据生态有其独特的价值。比如中文的语义歧义性、语法灵活性、以及大量的隐式指代,这些在英文语料里是很少见的。GPT-4在中文任务上的表现之所以比GPT-3.5有质的飞跃,很大程度上是因为OpenAI在2022年到2023年期间大量爬取了微信公众号、知乎、B站评论区等中文内容。如果这种数据获取渠道被切断,西方模型的中文能力会很快出现“天花板效应”——它们在形式上的语法正确性可能还行,但一旦涉及到中文特有的语境理解,比如“你行你上”这种反讽、“破防了”这种网络梗的语义漂移,或者“咱们”和“我们”的情感差异,就会露馅。我去年测试过某个欧洲开源模型的中文情感分析,它在“这个方案虽然不完美,但比起之前那个已经算是良心了”这句话上,把“良心”判断成了正面情感——但实际语境中它是中性偏负面的反讽。这种细微差别,没有大量原生中文语料的持续喂养,光靠翻译数据是学不来的。
再说算力协作这块,楼主提到了分布式训练,这个我太有发言权了。我们2021年做过一个实验,用联邦学习的方式让位于德国、日本和中国的三个数据中心联合训练一个视觉模型,数据不出本地,只交换梯度。当时效果很好,模型在跨域场景下的泛化能力比单独训练提升了15%。但2023年之后,这种模式几乎不可能了。原因不仅仅是政治因素,还因为G7国家开始推行“数据主权”和“可追溯的模型来源”要求。具体来说,如果你要使用来自欧盟的数据参与训练,你必须证明你的模型训练过程中没有使用受限制的硬件(比如某些中国产的加速卡),并且整个训练链路的日志必须保留五年。这对于联邦学习场景简直是灾难,因为你需要为每一轮梯度交换生成合规报告,还要审计参与方的硬件清单。我们当时一个简单的ResNet-50联邦训练,合规文档的编写成本比模型训练本身的算力成本还高。而且,由于中国团队使用的昇腾910芯片被列入某些清单,我们不得不把中国节点的训练全部迁移到NVIDIA A100上——但A100对中国出口是受限的,我们只能通过灰色渠道以溢价30%的价格采购,而且保修还受限制。这种割裂让分布式训练从技术问题变成了供应链问题,这是最让我感到无力的地方。
楼主提到的“双轨制标准”,我认为更准确的说法是“两套技术栈的物理隔离”。现在的情况是,中国在大力推昇思MindSpore和飞桨PaddlePaddle,而西方在强化PyTorch和TensorFlow的生态壁垒。但这里有一个关键问题:这两套生态并不像Android和iOS那样只是API层面的不同,它们在计算图表示、算子定义、甚至硬件抽象层都有根本差异。比如MindSpore的自动微分是基于静态图的源码变换,而PyTorch是动态图加torch.compile的编译优化。如果你想在这两套生态之间迁移模型,光靠ONNX是不够的。ONNX只能处理前向推理的计算图,但训练过程中的优化器状态、混合精度策略、分布式通信模式这些都是ONNX无法表达的。我们团队去年尝试把一个用PyTorch训练的Transformer模型迁移到MindSpore上做继续预训练,结果遇到了算子兼容性问题:PyTorch的F.scaled_dot_product_attention在MindSpore里对应的实现是mindspore.ops.attention,但它的mask处理逻辑和数值精度策略完全不同,导致迁移后的模型loss曲线直接飞了。我们花了三周时间逐层对比输出,最后发现是softmax的数值稳定性算法差异——PyTorch用的是online safe softmax,而MindSpore当时默认用的是naive版本。这种细节问题,在模型规模小的时候看不出来,但到了百亿参数级别,就是致命的。
所以楼主提到的“开发者是否要被迫选择技术栈阵营”,我的回答是:这已经不是“是否”的问题,而是“何时”的问题。如果你现在还在做跨国合作的AI项目,你大概率已经感受到了这种被迫选择的压力。我认识的一些创业团队,为了同时兼容两套生态,不得不在代码里写大量的if-else分支,分别调用PyTorch和MindSpore的API,维护成本高到离谱。更有意思的是,有些技术决策已经超出了技术本身。比如我有个朋友在东南亚做OCR,他们原本想用百度开源的PaddleOCR,因为它的中文识别效果确实比Tesseract好太多。但他们的投资方是日本的一家风投,明确要求不能使用“来自特定国家的开源组件”,哪怕只是推理阶段也不行。最后他们只能自己基于CRNN重写,效果还差一截。这种非技术因素绑架技术选型,是开发者最憋屈的事。
但是,我也不同意楼主说的“这种割裂会加速中国自研框架的成熟”这个说法,至少不完全同意。加速成熟是事实,MindSpore在2023年的算子覆盖率已经追平了PyTorch 1.12的水平,PaddlePaddle的分布式训练能力在千卡集群上的线性加速比也做得不错。但这些框架的成熟是“生态孤岛内的成熟”,而不是“全球协作下的成熟”。真正的问题在于,AI技术栈的很多核心创新是依赖于全球开发者社区的相互激发的。比如PyTorch的torch.compile这个功能,它的核心思路借鉴了JAX的JIT编译技术,而JAX又吸收了TensorFlow的XLA编译器的经验。这种跨框架、跨团队的创新扩散,在封闭生态里是很难复制的。国内框架团队虽然也在做类似的东西,但往往是在重复造轮子,而且缺乏足够多的外部贡献者来发现和修复边界情况。我最近在对比PaddlePaddle的编译器Pass和PyTorch的Inductor,发现PaddlePaddle在静态形状优化上做得很好,但在动态形状场景下的退化处理明显不如Inductor——因为动态形状的场景大部分来自NLP和推荐系统,而这些场景的典型用户多在海外。没有这些用户的真实反馈,优化就很难做到极致。
回到楼主最后问的那个问题:“开发者该如何自处?”我的建议是三个字:做兼容。不要押注单一生态,而是把精力花在构建跨框架的抽象层上。具体来说,我推荐几个实操方向:
第一,用Megatron-LM或DeepSpeed这类框架做训练时,尽量把模型定义和分布式策略解耦。比如用PyTorch写模型定义,然后用DeepSpeed的ZeRO-3做参数分片,这样如果未来需要迁移到MindSpore,至少模型结构部分可以复用——因为MindSpore的AutoParallel也支持类ZeRO的策略,只是API不同。你可以自己写一个适配器层,把DeepSpeed的配置转换成MindSpore的parallel_config。虽然麻烦,但比全量重写要划算。
第二,关注模型中间表示层的标准化。ONNX虽然不能覆盖训练,但它在推理场景下已经足够成熟。而且现在有一个趋势,就是PyTorch和MindSpore都在向MLIR靠拢。MLIR是LLVM社区推出的多级中间表示,它可以承载不同框架的计算图表示。如果你现在开始用MLIR来定义自己的算子融合和优化Pass,未来跨框架迁移的成本会大大降低。我建议开发者花点时间学习一下MLIR的基础概念,尤其是StableHLO这个方言,它正在成为跨框架推理的标准。
第三,在数据准备阶段就做好合规设计。不管你用哪家的框架,数据管线的设计要考虑到未来可能的隔离。比如,把所有数据标注和清洗逻辑封装成独立的容器,通过标准化的接口对外暴露。这样即使未来某个数据源被切断,你只需要更换数据提供方的实现,而不需要动模型训练代码。我们团队现在做跨国项目,都会预先设计好“数据源抽象层”,类似Adapter模式,把Common Crawl、内部爬虫、第三方API都封装成统一的DataSource类。这样即使某一天某个数据源被封,切换成本只是一个配置文件。
第四,最核心的一点:不要忽视小模型和高效训练技术。在算力和数据都受限的情况下,模型压缩、知识蒸馏、LoRA这类技术会变得极其重要。如果你能用一个7B的蒸馏模型达到原版70B模型95%的效果,你就对数据源和算力的依赖更小,也就能更灵活地在不同生态之间穿梭。我们团队最近在做的一个项目,就是用Qwen-7B作为教师模型,蒸馏出一个3B的学生模型,专门针对中文长文本理解场景,效果比直接用英文模型微调要好得多,而且训练成本只有原来的十分之一。这种技术路线,在技术割裂的背景下,比一味追求大模型要务实得多。
最后说一句真心话:作为开发者,我们其实很无奈。技术本该是无国界的,但现实是数据、算力、标准都在被政治切割。我们改变不了大环境,但至少可以在自己的代码里,为这种不确定性留好接口。不要把自己的技术生涯押注在某个单一生态上,保持对底层原理的理解,保持对多种工具的熟悉,保持对数据管线的抽象设计——这些才是真正能穿越周期的能力。至于G7那个联盟,说实话,我反而觉得它可能会催生出一批专门做跨生态兼容工具链的创业公司,比如自动化的模型格式转换器、跨框架的分布式训练编排平台、去中心化的数据共享协议等等。如果这个机会抓住了,也许反而是坏事变好事。
以上都是个人的实战经验,希望能给同行的开发者一些参考。欢迎一起交流具体的实现细节,特别是关于MLIR和跨框架训练这块,我最近在写一个开源的工具库,专门用来处理PyTorch和MindSpore之间的算子映射和梯度对齐,有兴趣的可以私信一起聊聊。
排华联盟本质上是在用政治逻辑替代技术逻辑,但AI模型的收敛效果高度依赖数据多样性,把中文语料和场景反馈切出去,西方模型在跨文化理解上的泛化能力肯定要打折。我跑过几个多模态项目,PaddleOCR和MindSpore的分布式训练效率确实能打,真搞双轨制,最后头疼的是做联邦学习对齐的工程师。与其纠结站队,不如先看看具体标准细节再骂,很多协议其实留了互操作接口。
联邦学习确实是个突破口,但跨框架的模型聚合协议(比如OpenFL和FATE互操作性)还没成熟,真要搞技术脱钩,两边都得先解决异构训练环境下的梯度压缩和同步效率问题。另外,中文语料这块,现在多模态模型对高质量标注数据的需求猛增,西方团队如果断了这块输入,长尾场景的鲁棒性估计得掉一截。说到底,标准分裂对开发者最不友好,以后维护两套推理管线,成本直接翻倍。
确实,技术割裂对开源生态的伤害是双向的。我好奇的是,联邦学习这种分布式方案在现实中落地难度有多大?比如数据异构、通信开销这些坑,目前有成熟的工程框架能规避吗?另外,如果真的形成两套标准,以后应届生入行是不是得直接决定站哪边?