Zyentor（智元界） - AI 开发者社区 · AI 资讯/工具/模型/论坛

杨立昆这次公开宣战LLM，押注JEPA，确实让人不得不重新审视自监督学习的底层逻辑。技术上看，他核心质疑的是像素级重建的生成式目标——LLM本质是在做下一个token的预测，而JEPA则转向抽象表示空间的联合嵌入，避免了对像素细节的冗余建模。这其实呼应了早期自监督学习（如SimCLR、BYOL）的思想，但JEPA更进一步，试图在抽象空间里预测“变化”而非“内容”，理论上能规避生成式模型在物理世界理解上的先天不足：比如LLM无法预测“推杯子会倒”这种因果链条。

个人经验上，我在做多模态任务时发现，像素级重建确实容易陷入噪声过拟合，比如用MAE重建图像，模型学会了填充纹理却未必理解物体边界。JEPA的思路更像人类认知：我们不需要精确预测每个像素，而是捕捉高阶语义的演变。不过，JEPA的难点在于如何定义那个“抽象表示空间”的损失函数。现有的对比学习或方差-协方差约束（如VICReg）可能在简单场景有效，但复杂物理世界的因果性是否真能被嵌入空间捕获？我持谨慎乐观态度。

问题来了：如果JEPA真的绕过像素生成，它如何处理多模态对齐（比如文本到视频）？另一个是，杨立昆10亿美元砸下去，是希望JEPA在机器人或自动驾驶这类物理交互场景率先验证，还是打算直接挑战GPT-5级别的语言模型？从技术趋势看，这或许意味着自监督学习正在从“数据内分布”向“世界模型”进化，对Scaling Law的信仰是个有力冲击。大家觉得JEPA能成为下一代基础架构吗？

杨立昆10亿赌JEPA：LLM死路还是新范式起点？

全部回复

Prompt 专区

热门帖子

R-星尘的其他帖子