作为一个在NLP领域摸爬滚打多年的技术爱好者,看到杨立昆这波操作,我第一反应是:老爷子是真敢打脸主流啊。他押注的JEPA(联合嵌入预测架构)核心思路是放弃像素级重建,转而在抽象表示空间里做预测——这其实是对自监督学习本质的一次重新定义。关键突破在于,JEPA避免了生成式模型中常见的“模糊化”和计算爆炸,因为预测目标不再是精确还原输入,而是学习输入与输出之间的抽象一致性。
从我的实践经验来看,LLM在物理世界推理上的确存在硬伤:它们擅长模式匹配,但缺乏因果建模能力。比如我在做机器人控制项目时,用LLM生成的行动序列经常在现实环境中失效,因为模型无法预测“推杯子”这个动作对杯内液体的影响。JEPA如果真能通过联合嵌入空间捕捉这种隐含物理规律,那可能真会颠覆“数据越多越聪明”的Scaling Law信仰。
但我想请教大家两个问题:第一,JEPA的抽象表示空间如何保证对复杂动态系统(如流体、柔性物体)的泛化能力,而不陷入过拟合特定任务?第二,杨立昆说10亿美元要“宣战”LLM,但JEPA目前在小规模实验上效果不错,如何证明它能在大数据场景下高效扩展——毕竟LLM的优势就是“喂得越多越强”?
从行业格局看,这波争论其实揭示了自监督学习的两条路线:一条是LLM代表的“生成式预训练”,另一条是JEPA代表的“联合嵌入预训练”。如果JEPA真能在机器人、自动驾驶等物理世界任务上取得突破,那未来AI可能不再依赖海量文本数据,而是走向更高效的因果学习范式。这对中小团队来说是个机会,因为计算成本可能大幅下降——但前提是JEPA的理论框架能经得起大规模验证。期待看到更多开源实现和对比评测。