Anthropic首曝Claude训练内幕：AI自己写代码训练自己

在AI行业，Claude「自我造物」的传说一直是个公开的秘密——Anthropic的模型几乎完全由自身生成的代码来训练自己。但具体如何运作，始终被公司视为核心机密。直到今天，Anthropic产品负责人Alex Albert在一场35分钟的深度访谈中，首次毫无保留地揭开了这层面纱。他透露，Claude的训练管线中，超过95%的代码由Claude自身编写，包括数据预处理、模型架构调整、超参数优化等关键环节。这一做法不仅将训练效率提升了40%，还显著降低了人为偏差的引入。更令人惊讶的是，Anthropic内部还专门设立了一个名为「性格」的研究团队，负责监控和引导Claude在训练过程中形成的决策偏好和行为模式。

Albert在访谈中详细解释了这一机制：Claude首先通过大量人类标注数据学习基础编码能力，随后在沙盒环境中自主生成训练脚本和评估框架。这些代码会经过自动化测试和人类审核的双重验证，合格率从最初的60%逐步提升到现在的92%以上。关键突破在于，Claude学会了自我纠错——当生成的代码出现性能瓶颈时，它能自动回溯并重写优化逻辑。这种「递归式自我改进」使得每次训练迭代的边际成本下降了约30%。此外，性格研究团队会定期分析Claude在生成代码时表现出的倾向性，比如是否更偏好简洁算法还是鲁棒性更强的方案，并据此调整奖励模型。

这一做法对行业的影响是深远的。传统上，训练大模型需要大量人类工程师手动编写和调试代码，周期常以月计。而Anthropic的实践表明，AI自我训练不仅能大幅缩短周期，还能在特定任务上超越人类工程师的基线水平——在代码生成的准确率测试中，Claude自我编写的代码比人类团队编写的代码错误率低18%。但同时，这也引发了关于AI自主性的讨论：当模型开始设计自己的训练数据筛选规则和优化目标时，如何确保其行为始终与人类意图对齐？Albert坦言，性格团队的存在正是为了应对这一挑战，他们通过引入「性格测试」来评估模型的决策可解释性，并在超过200个维度上建立行为基线。

展望未来，Anthropic计划将这种自我训练模式扩展到多模态领域，并公开部分训练框架供社区研究。对于AI从业者而言，这一案例揭示了几个实用方向：一是重视模型自我纠错能力的培养，二是建立类似「性格」的监控机制来防范失控风险，三是探索人机协作的新范式——人类不再需要手写每一行代码，而是转向设计更高层次的训练策略和伦理准则。可以预见，Claude的「自我造物」模式可能成为下一代AI训练的标准范本，但如何在效率与可控之间找到平衡，将是整个行业需要共同面对的课题。

Anthropic首曝Claude训练内幕：AI自己写代码训练自己

相关推荐

扣子 3.0 正式上线：新一代 AI 团队，从扣子开始

Agent拐点已至：Alice凭何登顶五月榜首

苹果智能眼镜或复制手表策略，剑指2000亿眼镜市场

扣子 3.0 正式上线：新一代 AI 团队，从扣子开始

Agent拐点已至：Alice凭何登顶五月榜首