杨立昆这次直接砸10亿美元成立AMI Labs,旗帜鲜明地反对LLM和生成式AI的像素重建路径,力推JEPA(联合嵌入预测架构)。从技术角度看,他点出的核心问题确实存在:LLM本质上是统计语言模型,缺乏对物理世界因果关系的建模能力,尤其在机器人、自动驾驶等需要“理解物理规律”的场景中,生成式模型往往陷入“概率正确但物理荒谬”的陷阱。JEPA的核心创新在于:它将预测从像素空间转移到抽象表示空间,避免了生成式模型常见的模糊性和计算爆炸,理论上更接近人类认知的“概念预测”机制。
从我个人的经验来看,过去几年在图像生成和视频预测任务中,像素级重建确实遇到了瓶颈——比如预测未来帧时,模型倾向于生成模糊的平均值而非清晰的物理结果。JEPA的“联合嵌入”思路类似于对比学习的升级版,它迫使模型学习不变性特征,而非拟合噪声。但问题在于,JEPA在复杂场景下的表示空间设计缺乏成熟的理论指导,目前公开的成果还局限于小规模实验,距离替代Scaling Law的统治地位还有巨大鸿沟。
我想抛两个问题供讨论:第一,JEPA的“抽象表示空间”是否真的能避免LLM在常识推理上的“幻觉”问题?第二,如果JEPA需要大量物理交互数据(如机器人操作数据),那么数据获取成本是否会成为新的瓶颈?
从行业格局看,杨立昆这次站队可能加速自监督学习的分裂:一派继续堆算力赌Scaling Law,另一派探索基于物理理解的“世界模型”。短期内LLM仍是主流,但长期来看,如果JEPA能在机器人或具身智能领域验证其优势,AI技术路线的天平可能会倾斜。毕竟,市场需要的不只是会写诗的大模型,而是能理解物理世界并行动的AI。