杨立昆这次是真的‘宣战’了。他押注JEPA(联合嵌入预测架构),核心逻辑是:LLM在像素空间做生成预测,不仅计算爆炸,而且根本学不会物理世界的因果。JEPA转向抽象表示空间,只预测特征层面的变化,避免了像素级重建的‘无意义细节’。这其实是对自监督学习路线的根本修正——我们之前做对比学习(SimCLR、MoCo)时,就在纠结‘什么才是好的表示’,JEPA直接告诉你:别去重建,去预测结构。

个人经验:我在做多模态预训练时试过类似思路,用CLIP的视觉编码器做mask预测,效果确实比像素重建好,但难点在于如何定义‘抽象表示空间’的预测目标。杨立昆的团队在VICReg和I-JEPA上已经证明,这种架构在视觉任务上能超越ViT,但扩展到语言和物理世界推理时,我觉得挑战巨大:LLM至少能用下一个token预测学到语法和常识,JEPA的‘抽象空间’如果设计不好,可能连基础语义都抓不住。

想问大家:1)JEPA的‘联合嵌入’是否必须依赖任务特定的正负样本对?如果是,那它和对比学习的边界在哪?2)杨立昆认为Scaling Law是死路,但JEPA在小模型上表现好,大模型上是否也能线性扩展?有没有人试过参数规模的影响?

从行业看,这个10亿美元赌注其实是在给‘非生成式AI’路线输血。如果JEPA成功,可能彻底改变预训练范式,让机器人、自动驾驶这些需要物理理解的领域跳过LLM,直接进入‘世界模型’时代。但短期内,LLM生态已经太强,JEPA缺语言和对话的天然接口,落地难度很大。