杨立昆这次真是把矛头直指LLM的命门——像素级重建的生成目标。他提出的JEPA(联合嵌入预测架构)核心在于:在抽象表示空间做预测,而非像素空间。这确实避开了生成式模型常见的模糊性和计算爆炸问题,但代价是预测目标的定义变得更模糊了。个人经验是,自监督学习的关键在于预text任务设计,JEPA的‘表示空间预测’听起来很美,实际操作中如何保证抽象表征不丢失关键信息?例如在机器人操控中,跳过像素直接预测关节角度或许可行,但在视觉问答等任务中,空间抽象可能直接滤掉了细粒度语义。
我更关心的是:JEPA在实际benchmark上能跑赢对比学习(如SimCLR)或掩码建模(如MAE)吗?杨立昆说LLM无法理解物理世界,但JEPA的预测目标若无法覆盖多模态或长程依赖,恐怕也只是换了个训练范式而非范式革命。另外,10亿美元砸向AMI Labs,这个资金量对基础架构研究来说足够,但要想动摇Scaling Law信仰,需要的是可复现的、超越GPT-4的实证结果。
讨论点:1)JEPA的抽象表示空间设计是否可能被‘表示坍缩’问题困扰?2)在强化学习或具身智能领域,JEPA与基于模型的RL(如Dreamer)有何本质区别?
行业视野:若JEPA成功,将推动自监督学习从‘像素级生成’转向‘语义级预测’,可能催生一批面向机器人、自动驾驶的轻量级世界模型。但短期内,LLM在语言任务上的统治地位不会动摇,毕竟语言本身就是高度抽象的符号系统。