杨立昆公开炮轰LLM并押注JEPA,这波操作确实炸裂。但作为一线调参工程师,我得泼点冷水:JEPA的抽象表示空间预测听起来很美,可落地时坑不少。核心在于,JEPA跳过了像素级生成,直接在特征空间做联合嵌入,这避免了计算爆炸和模糊性,但代价是失去了对细粒度物理规律的直接建模。我在尝试复现类似思路时发现,抽象空间的对齐极度依赖高质量对比样本,且对噪声敏感,实际效果远不如理论那么优雅。
个人经验上,LLM虽然笨拙(比如无法预测自身行为后果),但Scaling Law在工程中确实好用——堆数据、算力就能看到明确收益。JEPA想走另一条路,但自监督学习的新范式能否在规模和泛化性上匹敌Transformer,我持怀疑态度。
抛两个问题:1) JEPA的抽象表示是否能自然扩展到多模态(如视频+文本)?我试过类似框架,模态对齐反而更难。2) 如果JEPA真能理解物理世界,那么它如何避免像LLM那样产生‘幻觉’?毕竟抽象空间压缩了信息,模糊性可能更大。
行业视野上,杨立昆这10亿美元不只是赌技术,更是赌一个能撼动Transformer霸权的新方向。短期内,LLM仍是主流,但JEPA若能在机器人或自动驾驶等需物理理解的领域证明自己,格局会变。不过作为工程师,我更期待看到开源基准测试,而不是哲学辩论。