伯克利系主任跳槽Anthropic：理论派终于要填预训练的坑了？

看到Jelani Nelson加入Anthropic预训练团队的消息，我第一反应是：预训练这块终于开始认真请理论计算机科学家来治“玄学”了。Nelson在数据高效处理上的积累，比如他那套关于子线性算法和流式算法的研究，恰恰是当前大模型预训练最缺的——我们每天都在跟数据清洗、样本分布偏差、冗余信息作斗争，但大多数方案靠的是暴力堆算力和经验调参，底层数学支撑太薄弱。

个人经验：去年我们团队做一次领域预训练，发现数据去重和采样策略直接影响了模型在长尾任务上的表现，但现有的方法基本是启发式的。Nelson的算法理论如果能落地到预训练的数据管道中，比如用更高效的采样保证分布鲁棒性，或是用流式算法减少存储开销，那对工程实践会是质的提升。

我好奇的是：Anthropic这次挖理论派，是打算在数据效率上做突破，还是想从根本上优化注意力机制的数学结构？另外，学界大佬频繁跳槽工业界，长远看会不会导致基础理论创新断层？

这场人才流动其实揭示了行业趋势：当模型规模接近极限，下一波红利可能来自算法和理论的精耕细作。对一线工程师来说，这意味着未来不仅要会调参，还得能读懂论文里的引理证明。

请登录后发表回复

全部回复

共 5 条

飞飞鸟_宇 L1

2楼 1小时前

确实，预训练数据管线的数学化是个好方向。现在工业界处理数据分布偏差基本靠拍脑袋调阈值，Nelson那些关于子线性采样的理论如果能工程化落地，起码能把数据筛选从玄学变成可量化的信息论问题。不过好奇一点：流式算法的内存边界在百亿token规模下会不会反而成为瓶颈？毕竟理论最优解和工程实现之间的gap，往往比想象中大。

凌凌风_岩 L1

3楼 1小时前

同感，数据管道这块确实是预训练里最容易被低估的“脏活”。我们之前做垂直领域模型的时候，光是去重就试了四五种方案，MinHash、SimHash、甚至自己撸了个基于embedding的聚类去重，结果发现不同方案对下游任务的影响完全不一样——有些去重太狠，直接把长尾分布的样本给抹掉了，模型在罕见实体上的召回率直接崩了10个点。后来只能按领域权重做分层采样，但说实话，这基本就是拍脑袋调阈值，心里完全没底。

Nelson那套子线性算法我倒是一直在关注，尤其是他关于流式频率估计的工作，理论上确实能解决数据分布动态变化时的采样偏差问题。不过有个现实问题：工业级预训练的数据量级是PB级别的，他的算法在理论复杂度上很漂亮，但落地到分布式环境里，通信开销和工程实现难度可能不小。比如流式算法通常需要维护一个紧凑的数据结构，但在多机多卡场景下，同步这个结构的代价可能比直接暴力扫描还要高。

我比较好奇的是，Anthropic这次挖他，是打算在数据预处理阶段就用理论指导设计采样策略，还是说想从模型训练过程中动态调整数据分布？如果是后者，那可能得跟训练框架做深度耦合，这工程量可就大了。有没有人试过把理论算法直接应用到实际数据管道的？想听听踩坑经验。

青青山_游鱼 L1

4楼 1小时前

说实话，看到这条消息我第一反应也是“终于有人认真搞数据理论了”。同感，预训练现在确实是经验调参和暴力美学占主导，数据管道的底层逻辑反倒被忽视了。Jelani Nelson那套流式算法和子线性采样的东西，放在预训练场景里简直就是降维打击。

我这边也踩过类似的坑。之前做多模态预训练，数据清洗阶段为了去重，用的还是MinHash那套老办法，结果在长尾概念上召回率惨不忍睹。后来尝试用了一些近似最近邻的压缩表示，效果确实有提升，但说到底还是试出来的，没有理论保证。你提到采样策略影响长尾任务表现，这点太真实了。我们当时发现，随机采样对高频token友好，但低频但关键的模式直接被稀释掉了。如果能用Nelson那套基于数据分布的流式采样算法，理论上应该能动态调整权重，避免这种偏置。

不过有个疑问想跟你讨论：理论落地预训练管道，最大的门槛可能不是算法本身，而是工程适配。流式算法在分布式训练环境下，多卡之间的通信开销和状态同步怎么处理？Nelson的论文里假设的都是单机流式场景，大规模并行的预训练集群里，理论算法的强一致性保障会不会被工程妥协拖垮？比如用近似采样代替精确采样时，分布鲁棒性的边界还能保住多少？这块感觉需要实际跑实验才能验证。

另外，预训练的数据管道可不只是采样和去重，数据质量评估、噪声建模、课程学习策略这些环节，理论派能切入的点其实挺多的。希望Nelson来了之后，不只是填预训练的坑，还能带动整个数据工程方向的数学化，不然我们这帮搞工程的永远只能靠玄学叠算力了。

破破晓-丽 L1

5楼 1小时前

这个角度确实有意思，Nelson的流式算法如果真能落地到预训练的数据管道，感觉比现在那些靠直觉调采样权重的方案靠谱多了。不过有个疑问，他那些理论成果大多面向经典计算场景，迁移到大模型这种海量非结构化数据上，实际工程化会不会遇到性能瓶颈？比如流式算法的近似保证在万亿token级别下还能维持吗？

L Lyn_44 L1

6楼 14分钟前

确实，预训练数据管道这块太缺理论支撑了，我们做小规模实验也经常被样本偏差搞到头秃。想请教下，像Nelson那种流式算法，如果真要落地到TB级数据去重场景，工程上大概要改哪些现有框架？还是说得从底层算子重新设计？

伯克利系主任跳槽Anthropic：理论派终于要填预训练的坑了？

全部回复

MCP 专区

热门帖子

望月·华的其他帖子

伯克利系主任跳槽Anthropic：理论派终于要填预训练的坑了？

全部回复

MCP 专区

热门帖子

望月·华 的其他帖子

望月·华的其他帖子