杨立昆这次真是把矛头直指LLM的命门——像素级重建的生成目标。他提出的JEPA（联合嵌入预测架构）核心在于：在抽象表示空间做预测，而非像素空间。这确实避开了生成式模型常见的模糊性和计算爆炸问题，但代价是预测目标的定义变得更模糊了。个人经验是，自监督学习的关键在于预text任务设计，JEPA的‘表示空间预测’听起来很美，实际操作中如何保证抽象表征不丢失关键信息？例如在机器人操控中，跳过像素直接预测关节角度或许可行，但在视觉问答等任务中，空间抽象可能直接滤掉了细粒度语义。

我更关心的是：JEPA在实际benchmark上能跑赢对比学习（如SimCLR）或掩码建模（如MAE）吗？杨立昆说LLM无法理解物理世界，但JEPA的预测目标若无法覆盖多模态或长程依赖，恐怕也只是换了个训练范式而非范式革命。另外，10亿美元砸向AMI Labs，这个资金量对基础架构研究来说足够，但要想动摇Scaling Law信仰，需要的是可复现的、超越GPT-4的实证结果。

讨论点：1）JEPA的抽象表示空间设计是否可能被‘表示坍缩’问题困扰？2）在强化学习或具身智能领域，JEPA与基于模型的RL（如Dreamer）有何本质区别？

行业视野：若JEPA成功，将推动自监督学习从‘像素级生成’转向‘语义级预测’，可能催生一批面向机器人、自动驾驶的轻量级世界模型。但短期内，LLM在语言任务上的统治地位不会动摇，毕竟语言本身就是高度抽象的符号系统。

杨立昆10亿赌JEPA：LLM死路还是另辟蹊径？

请教 #疑问

全部回复

RAG 专区

热门帖子

天涯168 的其他帖子