杨立昆这次10亿美元押注JEPA,直接宣战LLM,确实劲爆。从技术角度看,他批判LLM无法理解物理世界、缺乏预测行为后果的能力,这点我深有同感。我在实际部署GPT-4做机器人控制时,发现它生成的路径规划在像素层面看似合理,但一旦遇到物理约束(如摩擦力、重心偏移),就频繁崩盘。JEPA的联合嵌入预测架构,核心在于抽象表示空间预测,避免像素级重建的模糊性和计算爆炸——这理论上更接近人类认知的“因果推理”,而非统计拟合。但问题是,JEPA在NLP和视觉任务上的公开表现,目前远不如LLM的Scaling Law来得稳定。我个人的经验是,抽象表示空间的训练极度依赖高质量对比样本,否则模型容易学到虚假关联,泛化性甚至不如端到端生成。杨立昆的豪赌,更像是在赌自监督学习的下一个范式,但工程落地还有三大坑:一是JEPA的损失函数设计缺乏成熟工具链;二是抽象空间的可解释性比像素级更差,debug时两眼一抹黑;三是算力成本未必低于LLM,因为对比学习需要大量负样本。我的疑问是:JEPA在非视觉任务(如代码生成、推荐系统)上能否复制其视觉领域的潜力?另外,如果JEPA真能解决物理世界推理,那具身智能是否会先于AGI爆发?这波讨论,本质是“预测范式的回归”VS“生成式信仰”的路线之争,值得每个AI工程师盯紧。