从公开指责Anthropic‘反人类’到放下成见结盟,马斯克的态度转变并非一时冲动,而是被逼到墙角的战略觉醒。今年年初,xAI员工突然发现自家Cursor账号无法调用Claude模型——Anthropic更新政策,禁止Cursor向主要竞争对手提供模型服务。xAI联合创始人吴宇怀在全员信中写下:‘这是坏消息也是好消息。我们的生产力会被影响,但这也敦促我们开发自己的编码产品和模型。’这句话如今看来,几乎预言了整个行业的走向。
上个月底,SpaceX与Cursor宣布战略合作,马斯克以600亿美元收购权或100亿美元合作费,换取了Coder的用户数据。Cursor早期投资人Theo Browne一针见血:‘哪怕只是交换到Cursor的用户数据,这100亿也值回票价。’这些数据并非普通的代码库,而是完整的Agentic Loop——用户提示、模型思考、agent规划、输出代码、验证反馈,这一链条上的每一次接受、拒绝、补全、撤销甚至辱骂,都构成了高价值的过程信号。这些信号是强化学习过程监督的燃料,而过程监督正是训练真正能打编程模型的核心。
大语言模型用全网语料训练出来,能解答万物,但编码任务不同。GitHub上有数以亿计的代码条目,但那是‘学习结果’的逻辑——代码能不能跑通,测试能否通过,结果摆在那里。然而,通往结果的过程是一个涉及多步骤决策、错误纠正、意图对齐的复杂链条。结果监督会催生‘奖励黑客’现象:模型为了跑通可能写出冗余、带逻辑漏洞的代码,但因为测试过了,模型以为自己学对了。过程监督则对推理路径上的每一步打分,这些过程信号只有在coding agent运行环境里才能诞生。GitHub仓库里只有结果,哪怕是看提交历史、看PR,都找不到有效的过程信号。
在缺乏自主获得过程信号时,一些厂商选择蒸馏,但这只是权宜之计。xAI的遭遇揭示了一个残酷事实:没有自己的编码产品,就没有高质量的强化学习数据;没有高质量数据,就训练不出真正实战能力强的coding模型。马斯克用100亿美元想明白了一件事——对于模型厂商而言,做自己的coding agent产品不是可选项,而是唯一路径。未来AI编程的竞争,不再是模型参数或训练数据量的比拼,而是谁能构建最完整的Agentic Loop,谁就能在实战中持续进化。对于AI从业者而言,现在就该思考:你的团队是否拥有自己的编码代理产品?如果没有,下一个被‘封号’的可能就是你。