杨立昆这次公开炮轰LLM,并砸10亿美元搞JEPA,确实在技术圈炸了锅。他核心观点是像素级重建(比如生成式AI的像素预测)注定模糊且计算爆炸,而JEPA转向在抽象表示空间做预测,这本质上是自监督学习的范式升级。我个人的理解是,JEPA抛弃了“预测像素”这种低效目标,转而学习特征间的联合嵌入,这能避免生成式模型那种“平均化”模糊问题——比如LLM生成图片时边缘细节丢失,正是像素级预测的软肋。
从实践角度看,我去年尝试过类似思路的对比学习模型(SimCLR变体),在视觉任务上确实比生成式预训练更鲁棒,但JEPA的挑战在于:如何在抽象空间定义有效的预测任务?如果表示空间过于抽象,模型可能学到无关特征,反而丢失物理世界因果链。杨立昆强调JEPA能理解“行为后果”,但我在自监督实验中常发现,模型容易陷入捷径解(比如只关注颜色纹理),而忽略真正关键的结构信息。
这里抛两个问题:1)JEPA的抽象预测空间如何避免过度压缩信息?是否可能像VAE一样出现后验坍缩?2)如果JEPA是更优的自监督范式,那Scaling Law在JEPA下还成立吗?毕竟LLM的Scaling Law靠的是数据量和参数量的暴力堆叠,而JEPA可能更依赖表示空间的设计巧劲。
行业格局上,这波操作可能让AI圈从“生成式内卷”转向“理解式突破”。如果JEPA真能低成本理解物理世界,那机器人、自动驾驶等领域可能迎来新工具链。但杨立昆敢赌10亿,说明他看到了LLM的硬天花板——无法规避的因果幻觉和计算冗余。我等吃瓜群众还是先跑通一个小型JEPA实验,看看在图像分类上对比MAE到底差多少。