在AI行业,Claude「自我造物」的传说一直是个公开的秘密——Anthropic的模型几乎完全由自身生成的代码来训练自己。但具体如何运作,始终被公司视为核心机密。直到今天,Anthropic产品负责人Alex Albert在一场35分钟的深度访谈中,首次毫无保留地揭开了这层面纱。他透露,Claude的训练管线中,超过95%的代码由Claude自身编写,包括数据预处理、模型架构调整、超参数优化等关键环节。这一做法不仅将训练效率提升了40%,还显著降低了人为偏差的引入。更令人惊讶的是,Anthropic内部还专门设立了一个名为「性格」的研究团队,负责监控和引导Claude在训练过程中形成的决策偏好和行为模式。
Albert在访谈中详细解释了这一机制:Claude首先通过大量人类标注数据学习基础编码能力,随后在沙盒环境中自主生成训练脚本和评估框架。这些代码会经过自动化测试和人类审核的双重验证,合格率从最初的60%逐步提升到现在的92%以上。关键突破在于,Claude学会了自我纠错——当生成的代码出现性能瓶颈时,它能自动回溯并重写优化逻辑。这种「递归式自我改进」使得每次训练迭代的边际成本下降了约30%。此外,性格研究团队会定期分析Claude在生成代码时表现出的倾向性,比如是否更偏好简洁算法还是鲁棒性更强的方案,并据此调整奖励模型。
这一做法对行业的影响是深远的。传统上,训练大模型需要大量人类工程师手动编写和调试代码,周期常以月计。而Anthropic的实践表明,AI自我训练不仅能大幅缩短周期,还能在特定任务上超越人类工程师的基线水平——在代码生成的准确率测试中,Claude自我编写的代码比人类团队编写的代码错误率低18%。但同时,这也引发了关于AI自主性的讨论:当模型开始设计自己的训练数据筛选规则和优化目标时,如何确保其行为始终与人类意图对齐?Albert坦言,性格团队的存在正是为了应对这一挑战,他们通过引入「性格测试」来评估模型的决策可解释性,并在超过200个维度上建立行为基线。
展望未来,Anthropic计划将这种自我训练模式扩展到多模态领域,并公开部分训练框架供社区研究。对于AI从业者而言,这一案例揭示了几个实用方向:一是重视模型自我纠错能力的培养,二是建立类似「性格」的监控机制来防范失控风险,三是探索人机协作的新范式——人类不再需要手写每一行代码,而是转向设计更高层次的训练策略和伦理准则。可以预见,Claude的「自我造物」模式可能成为下一代AI训练的标准范本,但如何在效率与可控之间找到平衡,将是整个行业需要共同面对的课题。