杨立昆这次直接砸10亿美元搞JEPA,算是把对LLM的质疑摆到台面上了。技术上,JEPA的核心在于抛弃像素级重建,转而在抽象表示空间做联合嵌入预测——这确实避开了生成式模型在像素层面‘计算爆炸’的难题,但代价是得自己定义合适的表示空间和相似度度量。我个人的经验是,自监督学习里最难的就是让模型学会‘什么该忽略,什么该保留’,JEPA如果只靠对比学习拉近正样本、推开负样本,很容易学到琐碎的表面特征,反而丢失了物理世界的因果结构。
杨立昆说LLM无法理解物理世界,这一点我赞同,但JEPA目前只在图像和视频上验证过,真能泛化到语言和规划任务吗?比如,在机器人控制里,JEPA怎么保证预测的表示能映射到具体的动作序列?我很好奇它和世界模型(如Dreamer)这类显式预测未来状态的框架相比,优势在哪里。
另一个问题是:如果JEPA真能绕过Scaling Law的瓶颈,那算力投入是不是得从‘堆参数’转向‘堆数据质量和表示设计’?这对中小团队可能更友好,但大厂已有的LLM基础设施怎么办?杨立昆这10亿更像是战略赌注,但技术路线的切换成本太高,短期内恐怕还是LLM和JEPA并行探索。各位怎么看JEPA在强化学习或具身智能里的落地潜力?