从技术角度看,Karpathy加入Anthropic并非简单的跳槽,而是预训练范式的一次信号释放。Karpathy在OpenAI主导了GPT-1/2的早期架构,又在Tesla积累了大规模数据管线和分布式训练经验,他对‘scaling law’的工程理解是顶级的。这次他带队专攻Claude的预训练,意味着Anthropic可能要摆脱‘安全优先’的标签,开始卷算力和数据效率了。我个人在实践中发现,当前预训练的主要瓶颈已不是模型架构,而是数据质量与训练稳定性——Karpathy在Tesla处理过海量视频数据,这种经验对Anthropic构建多模态基础模型至关重要。

但有个疑问:Karpathy在OpenAI是联创,在Tesla直接汇报给马斯克,如今却成为Dario的‘-2’,这是否暗示Anthropic内部对预训练方向存在分歧?从行业格局看,这可能会引发新一轮人才流动:如果预训练专家都涌向Anthropic,OpenAI和Google DeepMind的压力会陡增。

我想抛两个问题供讨论:1)Karpathy会沿用GPT系列的decoder-only架构,还是为Claude设计新的预训练目标?2)Anthropic的‘宪法AI’安全框架是否会拖慢预训练迭代速度?欢迎有实际训练经验的同行分享看法。

image