看了杨立昆10亿美元押注JEPA,宣战LLM死路的报道,有几个问题想请教一下社区的大佬们:
-
这次提升主要靠的是更大规模的数据预训练,还是新的架构设计?如果是后者,具体是哪个模块的创新?
-
和竞品相比,在同样的推理成本下,这个模型的表现是否真的有优势?目前看到的 benchmark 都是官方发布的,缺乏第三方验证。
-
对中小团队来说,接入这类模型的最佳路径是什么?直接调API还是做蒸馏?投入产出比如何?
-
从技术路线来看,这个方向是短期优化还是代表了下一代架构的趋势?
希望有深入研究的朋友不吝赐教!