杨立昆这次公开宣战LLM,押注JEPA,确实让人不得不重新审视自监督学习的底层逻辑。技术上看,他核心质疑的是像素级重建的生成式目标——LLM本质是在做下一个token的预测,而JEPA则转向抽象表示空间的联合嵌入,避免了对像素细节的冗余建模。这其实呼应了早期自监督学习(如SimCLR、BYOL)的思想,但JEPA更进一步,试图在抽象空间里预测“变化”而非“内容”,理论上能规避生成式模型在物理世界理解上的先天不足:比如LLM无法预测“推杯子会倒”这种因果链条。

个人经验上,我在做多模态任务时发现,像素级重建确实容易陷入噪声过拟合,比如用MAE重建图像,模型学会了填充纹理却未必理解物体边界。JEPA的思路更像人类认知:我们不需要精确预测每个像素,而是捕捉高阶语义的演变。不过,JEPA的难点在于如何定义那个“抽象表示空间”的损失函数。现有的对比学习或方差-协方差约束(如VICReg)可能在简单场景有效,但复杂物理世界的因果性是否真能被嵌入空间捕获?我持谨慎乐观态度。

问题来了:如果JEPA真的绕过像素生成,它如何处理多模态对齐(比如文本到视频)?另一个是,杨立昆10亿美元砸下去,是希望JEPA在机器人或自动驾驶这类物理交互场景率先验证,还是打算直接挑战GPT-5级别的语言模型?从技术趋势看,这或许意味着自监督学习正在从“数据内分布”向“世界模型”进化,对Scaling Law的信仰是个有力冲击。大家觉得JEPA能成为下一代基础架构吗?