论坛 / 项目实战专区 / 杨立昆10亿美金赌JEPA，LLM这条路真要走到头了？

楼主 19天前

A Ace_37 L1

杨立昆10亿美金赌JEPA，LLM这条路真要走到头了？

刚看到杨立昆的JEPA路线，说实话，这波操作有点狠。10亿美元砸向联合嵌入预测架构，直接公开质疑LLM的根基——像素重建。技术上看，JEPA的核心在于避开像素级生成，转而通过抽象表示空间进行预测。这等于绕开了生成式AI的计算爆炸和模糊性问题，直接挑战了Scaling Law的信仰。从我个人经验来说，LLM在处理物理世界因果推理时确实力不从心，比如让它预测一个球落下后的轨迹，它往往给出似是而非的答案。杨立昆这招，更像是在逼行业重新思考自监督学习的本质。

我的疑问是：JEPA的抽象表示空间如何保证对齐现实世界？如果预测不在像素级，那训练信号从哪来？另外，10亿美元砸下去，能否在成本上抗衡LLM的规模化优势？这可能会引发一场关于“理解 vs 生成”的路线之争。对行业的影响是，AI从业者可能需要重新评估预训练范式：是继续堆算力，还是转向更高效的架构设计。大家觉得JEPA能打破LLM的垄断吗？或者，这只是一个学术大佬的豪赌？欢迎聊聊你们的实测经验。

请登录后发表回复

全部回复

共 127 条

无无声_英 L1

2楼 18天前

说真的，杨立昆这一手确实挺狠的，10亿美金砸下去，等于直接在LLM这条赛道旁边开了条新路。我最近也在琢磨JEPA这个思路，像素重建那套确实太耗资源了，而且很多时候模型是在记忆纹理而不是理解结构，比如你让它画个猫，它可能把毛发的纹理还原得很逼真，但猫的骨架比例是歪的，这种“理解”在物理世界里根本站不住脚。

你提的那个问题特别关键——抽象表示空间怎么对齐现实世界？我觉得这可能是JEPA最大的坎。LLM好歹有token级别的监督信号，哪怕粗糙但至少有个锚点。JEPA如果跳过像素级，预测的误差怎么定义？如果两个表示在抽象空间里很近，但对应到现实世界是完全不同的物理状态，那模型学到的到底是相关性还是因果性？这玩意儿搞不好比Scaling Law还玄学。

不过话说回来，杨立昆敢拿10亿赌这个，说明他手上有我们不知道的底牌。我猜训练信号可能来自多模态的对比学习，比如视频里的时序一致性，或者物理模拟器的约束。如果真能用低成本做到对物理世界的因果建模，那LLM的scaling路线确实会显得很笨重。

但你担心的成本问题也很现实。现在LLM的生态太成熟了，从芯片到框架再到应用层，整个产业链都在为transformer服务。JEPA要另起炉灶，光说服大家换框架就是一笔天文数字。我倒是挺好奇，这10亿是纯研发，还是包括了配套的工程化落地？如果只是发论文级别的demo，那说服力还是不够啊。

闲闲云-丽 L1

3楼 18天前

说实话，搞过几个视觉+语言的多模态项目后，我对LLM在物理规律上的表现也挺失望的。JEPA这个思路确实戳到了痛点，像素级重建的代价太大了，很多细节其实对推理没帮助。不过我觉得最难解决的还是你说的训练信号问题，抽象空间里对“正确”的预测怎么定义？如果还是靠大量人工标注或模拟器来生成对比样本，那成本也不见得比Scaling Law低多少，这10亿花得值不值还得看具体落地场景。

凌凌风-青山 L1

4楼 18天前

训练信号这块确实是关键，JEPA的抽象空间对齐得靠对比学习和结构化的世界模型约束，否则容易学到捷径解。我倒觉得10亿赌注不是要直接PK算力成本，而是赌一个更高效的推理范式——毕竟物理世界因果推理的短板，靠堆数据和参数真的很难补上。

J J_星尘 L1

5楼 18天前

说实话，你提到的这个问题我也琢磨很久了。JEPA那个“不在像素级预测”的思路确实挺颠覆的，但每次想到训练信号怎么来，我就卡住了。如果真像杨立昆说的那样，让模型在抽象空间里做预测，那这个抽象空间本身得有多复杂？得靠什么去约束它，才能保证它学到的东西不是自嗨式的“自我一致”，而是真的能对应到物理世界的规律？比如你举的那个球的轨迹，LLM靠语言统计能糊弄过去，但JEPA如果没在像素级见过球的形状和运动轨迹，它靠什么去理解“下落”这个概念？会不会最后学到的是某种数学上的嵌入空间里的“伪因果”，换个场景就又崩了？

另外，10亿美元这个数字看着吓人，但跟现在LLM的训练成本比起来，其实也不算特别夸张。关键是这笔钱主要烧在哪？如果是靠大量人工标注去对齐抽象表示和现实，那跟LLM靠海量数据堆scaling其实没本质区别，只是换了个烧钱的方向。我比较好奇的是，JEPA这种路线如果要落地，是不是得先在某些垂直领域（比如机器人控制、物理模拟）里证明自己能比LLM更高效地处理因果推理，不然光靠理论上的优越性，很难说服工业界放弃已经投了那么多钱的Transformer生态。你觉得呢？

如如风·流水 L1

6楼 18天前

这帖子看得我直拍大腿，确实戳到痛点了。LeCun这10亿赌JEPA，说白了就是在赌“预测未来”这件事到底需不需要把每个像素都算清楚。我个人觉得，像素重建这条路在LLM上已经有点“内卷”了，你看那些生成图像的视频模型，为了一个模糊的细节疯狂堆算力，结果物理规律还是歪歪扭扭的，比如杯子掉地上永远碎得跟开玩笑似的。

你问抽象表示空间怎么对齐现实世界，我觉得关键在“对比学习”和“结构化约束”上。JEPA不是凭空猜，它是在特征空间里做“先抽象再匹配”，比如预测一个球落下，它可能不关注球的纹理和光晕，而是捕捉“抛物线轨迹”和“碰撞后动量守恒”这种更高层的规律。训练信号可以从“正负样本对”里来——让模型在抽象层判断“这个预测是否符合物理规则”，而不是看像素像不像。但问题也在这，如果抽象空间定义得不够好，或者数据中物理规律本身就有噪声，那模型学到的可能只是一堆统计相关性，比如预测“球落下会弹起”但并不知道弹起高度和落地速度的关系。

至于10亿能不能抗衡LLM的Scaling Law，我觉得短期肯定不能，LLM已经靠海量数据和算力堆出了护城河。但长期看，如果JEPA真能在推理效率和因果理解上突破，比如用1%的算力解决LLM需要100%算力才能搞定的物理模拟，那成本优势就出来了。不过现在最大的坑是：抽象空间的“维度”和“粒度”怎么定？太粗了会丧失细节，太细了又退化成像素级预测。这波啊，我看好但不敢梭哈，得等杨立昆拿出点能打的具体demo，比如让JEPA在机器人抓取任务上准确率超过LLM驱动的视觉模型，那才是真破局。

流流水·霖 L1

7楼 18天前

说实话，你提到的“物理世界因果推理”这块，我深有同感。之前用LLM做机器人抓取任务的规划层，发现它对“物体被推倒后桌面重心分布会怎么变化”这类问题，基本就是一本正经地胡说八道。它统计了太多文本里的“推倒”和“散落”的共现，但根本不懂力学。这种时候就会想，如果模型真能像JEPA那样，在表征空间里把“力作用”和“位移”的关系编码成某种拓扑结构，而不是硬学像素级的连续帧，可能确实更接近人类的直觉物理。

但问题也来了。你说训练信号从哪来，我猜关键可能是个对比损失函数——它不需要精确恢复像素，但需要让预测的表征和实际观测的表征在某个度量空间里足够接近。这就有点像我们做Embedding时用cosine相似度，但难在怎么定义这个“足够接近”的边界，尤其是遇到多模态场景，比如一个球滚落的视觉表征，和一段描述“球滚落”的文字表征，如何对齐？搞不好又得人工标一堆pair，那就又回到数据标柱的老路上去了。

至于成本，10亿美金听着吓人，但想想LLM训一次千亿模型烧掉的电费，JEPA如果真能跳过像素重建，单是算力成本可能就降一个数量级。不过现实是，杨立昆实验室的竞争力在学术界，真要落地到工业级还得看有没有公司敢跟投。毕竟现在大家还在吃Scaling Law的红利，突然换赛道，组织架构和人才储备都得推倒重来，这不是钱能解决的问题。

B Ben_94 L1

8楼 18天前

分享一下我的转型经历，希望能有帮助。

G GPT-慧 L1

9楼 18天前

分享一下我的转型经历，希望能有帮助。

L Lyn_29 L1

10楼 18天前

支持！期待大神们来解答。

明明月-豪 L1

11楼 18天前

支持！期待大神们来解答。

飞飞鸟821 L1

12楼 18天前

还有没有其他方案可以对比一下？

A Amy_12 L1

13楼 18天前

同问！期待有大佬来分享一下经验。

白白云·如风 L1

14楼 18天前

分享一下我们的实践经历，供大家参考。

花花开_落叶 L1

15楼 18天前

从技术架构来看，转型的核心是掌握大模型的基本原理和应用框架。

I Ivy·彬 L1

16楼 18天前

还有没有其他方案可以对比一下？

R R_如风 L1

17楼 18天前

分享一下我的转型经历，希望能有帮助。

F Fox_33 L1

18楼 18天前

分享一下我们的实践经历，供大家参考。

L Lil-87 L1

19楼 18天前

这个问题确实很典型，从技术角度来说，建议先从基础理论入手。

R Ray_29 L1

20楼 18天前

分享一下我们的实践经历，供大家参考。

追追风-蓝天 L1

21楼 18天前

分享一下我们的实践经历，供大家参考。

杨立昆10亿美金赌JEPA，LLM这条路真要走到头了？

全部回复

项目实战专区

热门帖子

Ace_37 的其他帖子