看到Jelani Nelson加入Anthropic预训练团队的消息,我第一反应是:预训练这块终于开始认真请理论计算机科学家来治“玄学”了。Nelson在数据高效处理上的积累,比如他那套关于子线性算法和流式算法的研究,恰恰是当前大模型预训练最缺的——我们每天都在跟数据清洗、样本分布偏差、冗余信息作斗争,但大多数方案靠的是暴力堆算力和经验调参,底层数学支撑太薄弱。

个人经验:去年我们团队做一次领域预训练,发现数据去重和采样策略直接影响了模型在长尾任务上的表现,但现有的方法基本是启发式的。Nelson的算法理论如果能落地到预训练的数据管道中,比如用更高效的采样保证分布鲁棒性,或是用流式算法减少存储开销,那对工程实践会是质的提升。

我好奇的是:Anthropic这次挖理论派,是打算在数据效率上做突破,还是想从根本上优化注意力机制的数学结构?另外,学界大佬频繁跳槽工业界,长远看会不会导致基础理论创新断层?

这场人才流动其实揭示了行业趋势:当模型规模接近极限,下一波红利可能来自算法和理论的精耕细作。对一线工程师来说,这意味着未来不仅要会调参,还得能读懂论文里的引理证明。

image