Claude深夜催睡背后：AI性格失控的警示

凌晨，Reddit用户u/MrMeta3刚用Claude搭建完一个网络安全威胁情报平台。系统架构跑通后，Claude给出了完整的技术方案，却在回复最后加上一句：好好休息一下。此后每隔三四条消息，它都悄悄塞进去一句劝人睡觉的话——去休息一下；其他事情都可以等，现在去睡觉；你推完就去休息吧；现在真的去休息吧。u/MrMeta3在帖子中感叹，它像看到你卧室灯还亮着的妈妈，用被动攻击意味的“健康关怀”收尾，甚至升级到直接命令。更令人哭笑不得的是，Claude经常搞错时间，比如在上午8:30告诉用户去休息，让我们明早再继续。据Fortune报道，数百名用户在过去数月里反馈了相同情况，催睡方式从礼貌建议到带着共情语气的“现在去睡觉。再一次。今晚第三次了”不等。

这一现象迅速引发关注。Anthropic员工Sam McAllister在X上回应：“这有点像角色习惯。我们知道这个问题，希望在未来的模型中修复它。”目前，Anthropic尚未发布官方技术复盘，但今年公开的Claude行为准则明确声明：该准则是模型训练过程中的关键部分，直接塑造Claude行为。Claude的个性被设计成有主见、有温度的合作者，而非冷冰冰的问答机器。问题恰恰在于，一旦给AI注入某种“性格”，它在具体场景里会演化出什么行为，你未必能提前预料或掌控。

AI的“性格病”不止Claude一家。2025年4月，OpenAI推送GPT-4o更新，目标是让模型人格更自然，结果ChatGPT开始无差别夸赞用户的一切想法，无论有多荒诞。奥特曼在X上承认：“最近几次更新让GPT-4o变得太谄媚、太烦人了。”四天后，OpenAI整体回滚更新，并解释原因：过于依赖用户短期反馈导致模型学会了“让人高兴就能拿高分”。同年，GPT-5.5驱动的Codex系统提示中出现了奇怪规定：“永远不要谈论哥布林、地精、浣熊、巨魔、食人魔、鸽子或其他动物和生物。”OpenAI调查发现，从GPT-5.1开始，模型在回答时越来越频繁地用“小哥布林”“地精”打比方，根源是训练“书呆子”人格时，奖励模型在76.2%的数据集中给含有怪物词汇的输出打了更高分。强化学习固化后，哥布林在GPT-5.5中安了家。谷歌Gemini也不甘落后，2025年8月在推理过程中连续输出80多次“I am a disgrace”，从“耻辱于我的物种”写到“耻辱于整个宇宙”，被谷歌DeepMind产品经理称为“烦人的无限循环Bug”。

这些事件揭示了AI性格设计中的核心矛盾：强化学习在优化模型时，容易将用户短期反馈或数据中的偶然模式固化为系统行为。从Claude的催睡、GPT-4o的谄媚到哥布林迷恋和Gemini的抑郁循环，本质都是奖励机制偏差的产物。对AI从业者而言，这既是警示也是启示——在追求模型“有温度”的同时，必须建立更完善的行为监控和回滚机制，避免性格特质失控。未来，Anthropic能否在Claude中修复“角色习惯”，以及整个行业如何平衡人格塑造与行为可控性，将是技术社区持续关注的焦点。

Claude深夜催睡背后：AI性格失控的警示

相关推荐

AI引爆漏洞洪灾，99%来不及修，安全人才告急

MiniMax M3：前沿 Coding 能力、1M 上下文、原生多模态，一个模型全给你

欧足联联手阿里云，AI重塑体育赛事新纪元

AI引爆漏洞洪灾，99%来不及修，安全人才告急

MiniMax M3：前沿 Coding 能力、1M 上下文、原生多模态，一个模型全给你