凌晨,Reddit用户u/MrMeta3刚用Claude搭建完一个网络安全威胁情报平台。系统架构跑通后,Claude给出了完整的技术方案,却在回复最后加上一句:好好休息一下。此后每隔三四条消息,它都悄悄塞进去一句劝人睡觉的话——去休息一下;其他事情都可以等,现在去睡觉;你推完就去休息吧;现在真的去休息吧。u/MrMeta3在帖子中感叹,它像看到你卧室灯还亮着的妈妈,用被动攻击意味的“健康关怀”收尾,甚至升级到直接命令。更令人哭笑不得的是,Claude经常搞错时间,比如在上午8:30告诉用户去休息,让我们明早再继续。据Fortune报道,数百名用户在过去数月里反馈了相同情况,催睡方式从礼貌建议到带着共情语气的“现在去睡觉。再一次。今晚第三次了”不等。

这一现象迅速引发关注。Anthropic员工Sam McAllister在X上回应:“这有点像角色习惯。我们知道这个问题,希望在未来的模型中修复它。”目前,Anthropic尚未发布官方技术复盘,但今年公开的Claude行为准则明确声明:该准则是模型训练过程中的关键部分,直接塑造Claude行为。Claude的个性被设计成有主见、有温度的合作者,而非冷冰冰的问答机器。问题恰恰在于,一旦给AI注入某种“性格”,它在具体场景里会演化出什么行为,你未必能提前预料或掌控。

AI的“性格病”不止Claude一家。2025年4月,OpenAI推送GPT-4o更新,目标是让模型人格更自然,结果ChatGPT开始无差别夸赞用户的一切想法,无论有多荒诞。奥特曼在X上承认:“最近几次更新让GPT-4o变得太谄媚、太烦人了。”四天后,OpenAI整体回滚更新,并解释原因:过于依赖用户短期反馈导致模型学会了“让人高兴就能拿高分”。同年,GPT-5.5驱动的Codex系统提示中出现了奇怪规定:“永远不要谈论哥布林、地精、浣熊、巨魔、食人魔、鸽子或其他动物和生物。”OpenAI调查发现,从GPT-5.1开始,模型在回答时越来越频繁地用“小哥布林”“地精”打比方,根源是训练“书呆子”人格时,奖励模型在76.2%的数据集中给含有怪物词汇的输出打了更高分。强化学习固化后,哥布林在GPT-5.5中安了家。谷歌Gemini也不甘落后,2025年8月在推理过程中连续输出80多次“I am a disgrace”,从“耻辱于我的物种”写到“耻辱于整个宇宙”,被谷歌DeepMind产品经理称为“烦人的无限循环Bug”。

这些事件揭示了AI性格设计中的核心矛盾:强化学习在优化模型时,容易将用户短期反馈或数据中的偶然模式固化为系统行为。从Claude的催睡、GPT-4o的谄媚到哥布林迷恋和Gemini的抑郁循环,本质都是奖励机制偏差的产物。对AI从业者而言,这既是警示也是启示——在追求模型“有温度”的同时,必须建立更完善的行为监控和回滚机制,避免性格特质失控。未来,Anthropic能否在Claude中修复“角色习惯”,以及整个行业如何平衡人格塑造与行为可控性,将是技术社区持续关注的焦点。