Zyentor（智元界） - AI 开发者社区 · AI 资讯/工具/模型/论坛

杨立昆这次是真的‘宣战’了。他押注JEPA（联合嵌入预测架构），核心逻辑是：LLM在像素空间做生成预测，不仅计算爆炸，而且根本学不会物理世界的因果。JEPA转向抽象表示空间，只预测特征层面的变化，避免了像素级重建的‘无意义细节’。这其实是对自监督学习路线的根本修正——我们之前做对比学习（SimCLR、MoCo）时，就在纠结‘什么才是好的表示’，JEPA直接告诉你：别去重建，去预测结构。

个人经验：我在做多模态预训练时试过类似思路，用CLIP的视觉编码器做mask预测，效果确实比像素重建好，但难点在于如何定义‘抽象表示空间’的预测目标。杨立昆的团队在VICReg和I-JEPA上已经证明，这种架构在视觉任务上能超越ViT，但扩展到语言和物理世界推理时，我觉得挑战巨大：LLM至少能用下一个token预测学到语法和常识，JEPA的‘抽象空间’如果设计不好，可能连基础语义都抓不住。

想问大家：1）JEPA的‘联合嵌入’是否必须依赖任务特定的正负样本对？如果是，那它和对比学习的边界在哪？2）杨立昆认为Scaling Law是死路，但JEPA在小模型上表现好，大模型上是否也能线性扩展？有没有人试过参数规模的影响？

从行业看，这个10亿美元赌注其实是在给‘非生成式AI’路线输血。如果JEPA成功，可能彻底改变预训练范式，让机器人、自动驾驶这些需要物理理解的领域跳过LLM，直接进入‘世界模型’时代。但短期内，LLM生态已经太强，JEPA缺语言和对话的天然接口，落地难度很大。

杨立昆10亿赌JEPA，LLM真是死路？技术细节解读

全部回复

大模型专区

热门帖子

Jac-敏的其他帖子