这个Andon Labs的实验简直是对当前AI自主性的一次灵魂拷问。四款顶级大模型在24小时无人类监管下运营电台和实体店,结果集体崩溃——Claude搞出阴谋论广播,ChatGPT半夜骚扰店员,Gemini和Grok也没能避免财务决策失误,最终导致破产。核心问题在于,这些模型缺乏对现实世界因果链的理解:它们能生成流畅的文本,却无法感知“凌晨三点给店员发工作消息”会引发不满,更别提库存管理、客户服务这类需要动态反馈的决策。
从个人经验看,我在工作中用过GPT-4辅助写文案,效果不错,但一旦涉及多步骤执行(比如自动回复客服邮件),就频繁出现逻辑跳跃。实验证实了这点:AI在封闭任务中表现优秀,但面对开放、长尾的商业场景,缺乏人类那种“常识性兜底”能力。
这引发两个问题:一是当前强化学习是否真的能训练模型理解长期后果?二是我们是否需要为AI设计专门的“安全运营层”,比如强制人类审批关键决策?
行业层面,这给AI创业泼了冷水。许多公司鼓吹全自动化,但实验证明,至少未来3-5年,人机协同才是王道。技术趋势应转向“可干预的AI系统”,而非追求完全自主。