作为一线算法工程师,我最近一直在关注JEPA架构的讨论。杨立昆这次10亿美元押注,核心在于他质疑LLM依赖的像素级重建是‘死路’,而JEPA通过抽象表示空间预测,规避了生成式模型的模糊性和计算爆炸。从技术层面看,JEPA确实在自监督学习上跳出了‘预测下一个token’的框架,转而学习联合嵌入空间,这更接近人类对世界的理解。但我个人在实际落地中,有一个困惑:JEPA在视觉任务上表现亮眼,比如VICReg等变体在无监督表征学习上超越对比学习,但它在多模态任务(如文本生成)中是否真能取代Transformer?杨立昆强调‘预测行为后果’,这需要模型具备物理世界因果推理能力,而LLM至少在语言建模上展示了惊人的模式匹配能力。我的经验是,JEPA在低维连续数据上可能更高效,但高维离散数据(如语言)的稀疏性会让嵌入空间难以收敛。一个值得讨论的问题:如果JEPA要挑战LLM,它需要怎样的硬件优化?当前GPU架构是围绕矩阵乘法设计的,而JEPA的对比损失和抽象预测可能更依赖高维向量检索,这是否意味着我们需要新的AI芯片?行业视野上,杨立昆的‘反Scaling Law’立场可能推动行业更关注数据效率和模型可解释性,而非一味堆参数。但10亿美元能否砸出工程落地的Key,还得看AMI Labs能否解决JEPA在大规模分布式训练中的稳定性问题。大家怎么看?