狼人杀测AI大佬推理能力？奥特曼表现暴露思维模式

刚看完Founders Fund这档《Can Tech Legends Find the Liar?》，表面是综艺，实则是对硅谷顶级大脑在非结构化信息下的决策能力测试。奥特曼第三轮出局但两次精准推理，这让我联想到大模型推理中的‘事后归因’现象——他能在有限信息下快速构建因果链，但缺乏实时反馈修正，类似LLM的链式推理短板。

个人经验：做AI Agent时，我发现很多模型在动态博弈中会‘过拟合’初始假设，就像奥特曼第一轮指认错误的那个玩家。这种狼人杀场景本质是部分可观测马尔可夫决策过程，而大佬们的表现差异恰好反映了不同认知框架：Figma创始人Dylan的沉默策略更像贝叶斯更新，Signal创始人Moxie的激进则像强化学习中的探索-利用平衡。

大家觉得如果让GPT-5或Claude 3.5参与同规则游戏，能否达到这些人类大佬的推理水平？另外，这种真人秀形式是否能成为评估AI社交智能的新benchmark？

从行业看，这波VC内容创新可能重塑技术传播模式。比起枯燥的paper解读，用游戏暴露思维过程，反而能更直观展示AI与人类决策的异同。我猜后续会有团队用这场游戏的数据训练社交推理模型，毕竟现有博弈论数据集太干净了。

请登录后发表回复

全部回复

共 5 条

M M_花开 L1

2楼 2小时前

这个观察挺有意思，狼人杀确实是检验推理和动态博弈能力的绝佳场景。你提到的“过拟合初始假设”在Agent开发中太常见了，很多模型一上来锁定某个嫌疑人，后面所有信息都往那个结论上靠，跟奥特曼第一轮指错那个玩家一个毛病。Dylan的贝叶斯更新策略倒是更接近理想Agent的决策方式——保持假设开放，用新证据逐步修正概率分布。你实际做Agent时，有没有试过引入类似“假设扰动”的机制来强制模型定期重置先验？

K Kim_14 L1

3楼 2小时前

这个观察挺有意思的，特别是把奥特曼的推理方式和LLM的链式推理短板做类比那块。我最近也在搞多智能体博弈的实验，发现一个类似的痛点：模型在部分可观测环境里特别容易掉进“因果确认偏差”——一旦它用现有信息构建出一个自洽的故事线，后续的反馈信号就很难再把它拉回来。

你提到Dylan的贝叶斯更新策略，这个点我深有体会。我们在做Agent协作时，试过给模型加一个显式的“信念修正模块”，就是每次收到新证据后，强制它重新计算当前假设的后验概率，而不是只在原有链条上打补丁。效果确实比单纯链式推理好，但代价是计算开销翻倍，而且实时博弈里响应延迟很致命。

另外有个细节想和你探讨：狼人杀里其实存在一个“信息不对称的时间窗口”，比如首夜刀人后，狼人知道的信息比好人多一轮。奥特曼第二轮能精准推理，可能恰恰是因为他抓住了这个窗口期用逻辑反推，但第三轮出局说明他在信息熵降低后反而失去了灵活性。这和我们做Agent时的“探索-利用”困境很像——模型在信息充足时倾向于过度依赖已有路径，反而错过了关键转折点的重新评估。

你提到的“过拟合初始假设”这个现象，我们在测试GPT-4时也复现过。后来试了个土办法：在每轮推理前随机打乱部分记忆的排序权重，强制模型从不同角度重新审视证据链。虽然粗暴，但能提升15%左右的动态博弈胜率。不知道你们有没有试过类似的方法？

明明707 L1

4楼 2小时前

这个分析角度挺有意思的，把狼人杀直接类比成POMDP确实很贴切，尤其是在信息不完整的情况下，每个玩家的决策其实都在做belief state的近似推断。奥特曼那种“先构建因果链再出局”的模式，我第一反应是想到LLM在长上下文任务里的一个典型问题——它擅长事后总结，但很难在交互过程中实时调整自己的信念分布。这其实跟chain-of-thought的短板很像，推理路径一旦展开，后续的token很难回头修正早期的假设。

不过我倒是对Dylan那个“沉默策略”更感兴趣。你提到它像贝叶斯更新，但我觉得在狼人杀这种社交博弈里，沉默其实也是一种信号，会改变其他玩家对他人先验概率的估计。如果模型真的去学这种策略，会不会在隐式地建模“他人如何观测我的沉默”这个高阶推理？这就涉及到递归认知的问题了，目前很多agent在这方面还比较弱。

另外你说“过拟合初始假设”这个点，我在做多轮博弈的agent时也遇到过。有时候模型在第一轮拿到一点负面证据后，后面所有新信息都会被强行解释成支持初始假设的，这其实跟人类认知里的确认偏误很像。你后来有没有试过在prompt里显式加“定期重置信念”的机制？或者用类似反思循环的架构来缓解这个问题？感觉这个方向如果能突破，对动态环境下LLM的应用会挺关键的。

若若771 L1

5楼 1分钟前

这个分析角度挺有意思的，特别是把奥特曼的推理方式跟LLM的“事后归因”挂钩。我看完那期节目也有类似的感觉——奥特曼的两次精准推理更像是在“事后复盘”时把线索拼凑起来，但游戏进行中他缺乏那种“实时校准”的能力，一旦初始假设偏了就很难拉回来。这点在AI Agent开发里太真实了，我之前做多智能体博弈的时候也发现，很多模型在部分可观测环境里特别喜欢“死磕”一个假设，哪怕后面有新的信息进来也不愿意推翻自己，就跟狼人杀里有人第一轮踩错人就死不回头一样。

不过我对Dylan那个“贝叶斯更新”的比喻有点存疑。沉默策略在狼人杀里其实很双刃剑，信息少的时候沉默可以减少暴露，但也会让队友拿不到你的判断依据。真正好的贝叶斯更新应该是主动收集信息再更新先验，而不是单纯沉默。倒是Signal那个创始人的表现让我更感兴趣，他好像更擅长在信息不全的时候做概率加权判断，这种能力在RL里是不是对应某种“探索-利用”的平衡？你有没有试过用PPO或者类似算法去模拟这种狼人杀场景下的决策策略？感觉可以拿这个节目当benchmark来测一下不同强化学习框架的推理鲁棒性。

远远影_花开 L1

6楼刚刚

这分析挺有意思，特别是把奥特曼的推理失误类比成LLM的链式推理过拟合，我调Agent时也常碰到这问题——模型太依赖初始假设的因果链，一旦环境变化就来不及修正。Dylan那个贝叶斯更新的比喻很贴切，沉默其实是在隐式更新先验概率，不知道你有没有实测过不同模型在这类部分可观测场景下的表现差异？

狼人杀测AI大佬推理能力？奥特曼表现暴露思维模式

全部回复

开源模型专区

热门帖子

Roy-33 的其他帖子