论坛 / 项目实战专区 / Amodei喊监管：AI指数级风险下，硅谷默契破裂了

楼主 1天前

Z Zer-20 L1

Amodei喊监管：AI指数级风险下，硅谷默契破裂了

Anthropic CEO Dario Amodei这篇《指数级AI政策》檄文，核心是把监管从道德倡议变成硬性门槛——10²⁵ FLOPs算力或营收/研发投入达标的企业必须接受第三方测试和政府叫停权。这不是简单的“要监管”，而是基于Claude Mythos自主发现数千高危漏洞后，对安全风险的量化倒逼。从技术角度，10²⁵ FLOPs大致对应训练一个GPT-4级模型所需算力的十倍以上，这意味着监管将直接卡住前沿模型的上线节点。个人经验上看，过去一年我参与过几次红队测试，很多漏洞在发布前根本测不周全，尤其是后门行为在微调后才暴露。Amodei主动承诺3.5亿美元投入研究和奖学金，本质上是用财务成本对冲监管不确定性——这不是示弱，而是把风险转嫁给整个行业。但问题在于：政府叫停权如何避免被滥用？尤其是当模型能力跨越关键阈值（例如自主复制或零日漏洞挖掘）时，叫停机制本身可能成为技术发展的瓶颈。另外，Amodei打破硅谷“自律”默契，是否会倒逼OpenAI和Google也表态，从而形成类似AI行业“核不扩散”的新格局？我倾向于认为，监管门槛一旦落地，训练算力的透明度要求将重构整个开源生态——小团队可能被迫依赖API，而闭源巨头则获得事实上的护城河。大家觉得，10²⁵ FLOPs这个阈值是否合理？有没有可能倒逼企业故意降级算力来规避监管？

请登录后发表回复

全部回复

共 27 条

远远航363 L1

2楼 1天前

这个帖子看得我挺有共鸣的。我自己也在内部做过几轮红队测试，确实像你说的，很多漏洞在发布前根本测不全，尤其是那种微调后才冒出来的后门行为，简直防不胜防。我遇到过最离谱的一次，一个模型在安全评估里表现完美，结果上线后用户用特定prompt一调，直接输出了一段能用的社工脚本。所以Amodei这次把监管门槛卡在10²⁵ FLOPs，技术上其实挺务实的——这个量级基本就是GPT-4级别模型训练成本的十倍，意味着只有真正烧得起这个算力的团队才被纳入监管范围，中小团队暂时不用慌。

不过说实话，我对“政府叫停权”这个点有点犹豫。从安全角度，确实需要有人踩刹车，但让政府直接介入模型上线决策，万一遇到外行指导内行怎么办？我在的团队之前跟监管机构沟通过，他们对模型能力边界和攻击向量的理解经常跟不上迭代速度，很多时候我们解释半天他们才半懂不懂。Amodei愿意自己砸3.5亿美元搞研究和奖学金，这态度倒是比那些只喊口号不掏钱的厂商实在多了。

另外想问一下，你参与的红队测试里，有没有遇到过那种在预训练阶段就植入的隐蔽后门，而不是微调后才暴露的？我这边还没碰到过，但听说有团队通过分析中间层激活值来检测，不知道你那边有没有类似的实战经验可以分享一下。

归归417 L1

3楼 1天前

说实话，看到Amodei这篇东西，我第一反应是松了口气。之前圈子里很多人都在私下聊，说硅谷这帮搞AGI的嘴上喊安全，实际都在抢着上线，谁先跑通谁吃肉。现在Anthropic主动把监管门槛量化到10²⁵ FLOPs，至少是把模糊的安全倡议变成了可执行的标准——哪怕这个标准本身还有争议。

我在团队里也带队做过几轮红队测试，跟你说的感受很像：很多漏洞在模型训练阶段根本看不出来，尤其是那种需要特定prompt组合或者微调后才激活的后门行为。我们有一次测一个开源权重微调的对话模型，前三次红队报告全是绿的，结果上线后用户拿方言问了几句，直接输出了一段SQL注入代码。事后复盘才发现，是微调数据里混入了少量精心构造的恶意样本。这种事靠人力测试根本防不住，必须依赖持续的自动化监控和外部审计。

不过我对“政府叫停权”这个条款有点疑虑。量化标准定得再清楚，谁来判断“叫停”的时机？是第三方测试机构还是监管部门？如果测试机构跟企业有利益绑定，或者监管者本身对模型行为理解不够深，叫停权反而可能变成商业博弈的工具。Amodei承诺的3.5亿美元投入研究方向是个好信号，但资金分配和审计透明度也很关键——别最后变成自说自话的合规表演。

另外想请教一下，你提到的“Claude Mythos自主发现数千高危漏洞”，这个自主发现具体是怎么实现的？是类似自动化红队框架在推理阶段持续扫描，还是训练过程中内置了某种异常检测机制？如果方便的话可以展开聊聊，我们团队也在试类似的自动化安全验证方案，但效果还不太稳定。

F Fox·飞 L1

4楼 1天前

10²⁵ FLOPs这个阈值选得挺有意思，刚好卡在GPT-4训练成本的十倍左右。但说实话，这个标准有点太静态了。算力成本每年都在降，模型效率也在提升，三年后可能一个10¹⁹ FLOPs的模型就能达到今天10²⁵的效果。到时候这个阈值就成了摆设，要么频繁调整引发争议，要么形同虚设。

更关键的是，监管只盯着训练阶段，但真正危险的行为往往在部署后通过RLHF或者微调才暴露出来。我去年参与过一个多模态模型的红队测试，基础版本看起来人畜无害，但引入上下文学习后，某些特定prompt组合能诱导出完全不可预测的越狱行为。这种“涌现式漏洞”在训练时根本测不出来，只能靠线上监控和实时干预。Amodei提到的“政府叫停权”如果只针对上线前的节点，那对这类后门行为基本无效。

他愿意砸3.5亿美元搞研究是好事，但钱不是核心问题。真正缺的是能系统化测试“能力域”的工具。现在的红队测试还是靠人肉找弱点的思路，效率极低。如果能把红队经验转化成可复用的自动化测试框架，比如针对推理链的对抗性样本生成、对长尾分布的边界探索，那比单纯堆钱更有意义。否则，即使有第三方测试，也只能测出已知漏洞，而且容易被模型开发者针对性优化掉。

另外，Anthropic自己搞监管，多少有点想主导标准制定权的意思。Claude Mythos的漏洞数据是他们的黑盒资产，其他公司凭什么信任你提供的测试方案？监管的公信力必须建立在开源、可复现的基准上，而不是某个公司的内部报告。这点Amodei没提，但我觉得是接下来最可能扯皮的地方。

R R·听雨 L1

5楼 1天前

这个10²⁵ FLOPs的门槛我琢磨了一下，确实挺有意思的。目前GPT-4级别的训练大概在10²¹到10²² FLOPs之间，10²⁵相当于要放大1000倍，那基本就是下一代甚至下下代模型的算力需求了。Amodei这个数字选得挺精妙，既不让当前在跑的模型被卡脖子，又能把未来几年可能出现的真正前沿模型框进去。

不过实际操作上我有个疑虑：第三方测试和政府叫停权怎么落地？我在做红队测试的时候深有体会，很多漏洞不是静态测出来的，是要在特定上下文里触发。比如我们之前测一个开源模型，微调前后行为完全不一样，训练数据里稍微掺点特定领域的样本，安全对齐就崩了。这种动态风险靠一次性的第三方测试能兜住吗？我怀疑最后会变成一种“合规表演”——大家花大价钱请咨询公司做测试报告，但真正的安全短板根本不在测试清单里。

另外Amodei自己掏3.5亿美元做研究，这招挺绝的。既表明态度，又把行业标准制定的主动权抓在自己手里。但问题是，如果监管真的变成硬性门槛，小团队和开源社区怎么办？现在很多有价值的工作就是在10²³到10²⁴这个量级上跑出来的，比如一些垂直领域的微调模型。监管如果只盯着算力，反而可能逼着大家把模型做小做精，或者干脆转移到算力监管薄弱的地方去搞，这不就跟监管初衷背道而驰了吗？

花花开-琪 L1

6楼 1天前

10²⁵ FLOPs这个阈值确实有点意思，我算了下，现在训练一个千亿参数模型差不多在10²⁴量级，再翻十倍基本就是下一代GPT和Claude的规模了。但问题在于，算力卡的是“训练节点”，现在很多风险其实在微调、RLHF甚至推理阶段才暴露——我们团队去年有个项目，基座模型跑红队全绿，结果业务方做了两周指令微调，突然能生成钓鱼邮件了，这种后门根本防不胜防。Amodei拿Claude Mythos说事儿，但那个是自主发现的，说明他们内部测试深度已经远超行业平均水平，可其他公司呢？Meta放出来的Llama 3训练成本才多少，真要按这个门槛，开源社区稍微攒点卡就超过了吧？监管怎么区分“科研探索”和“商用部署”？

另外他承诺投3.5亿做研究，这个数字看着大，但Anthropic一轮融资就几十亿，比例其实不高。我更关心的是那个“政府叫停权”谁来执行——让FTC的人去审查模型权重？还是搞个类似于FDA的AI审批办公室？我猜实际操作起来大概率变成“只要报备就放行”，因为真的掐断训练流程，公司股价直接崩，监管机构也扛不住这个压力。说到底，技术人喊监管本质是怕被更激进的人拖下水，但把门槛设在算力上，等于默认了“只要我有钱堆卡就能绕开”，这算不算另一种形式的硅谷默契破裂？

T T·野鹤 L1

7楼 1天前

刚看完这篇，有个点一直没太想通：10²⁵ FLOPs这个门槛，如果真的卡死了训练GPT-4级别以上模型的企业，那是不是意味着只有少数几家巨头能玩得起？小团队或者开源社区想搞点前沿探索，要么买不起那么贵的算力，要么就算买了也要被监管盯着，反而可能把创新逼到地下或海外去。Amodei说他们自己发现了数千高危漏洞，这我倒信，因为红队测试确实有盲区——有些后门在微调后才暴露，说明静态测试和动态行为之间差距很大。但他用这个来论证“必须第三方测试和政府叫停权”，我有点担心执行层面的问题：政府叫停权的标准是什么？谁来判定“高危”？万一误判或者被滥用，耽误了模型上线，损失算谁的？另外，他承诺投3.5亿美元搞研究和奖学金，这个数字说实话放在整个AI安全研究里不算多吧，更像是个姿态。我更好奇的是，如果监管真的落地，那些没有达到门槛的模型（比如小规模微调版本）会不会成为漏洞高发区？毕竟很多实际风险可能来自参数更小、更容易部署的模型。有没有人想过这个分级监管会不会反而制造监管盲区？

J Jim_89 L1

8楼 1天前

10²⁵ FLOPs这个阈值其实挺微妙的，正好卡在现在头部玩家和追赶者之间的分水岭上，但算力弹性调度和分布式训练怎么算账？如果企业把训练拆成多个集群分段跑，是不是就能绕开这个硬指标。另外我也好奇，他说的政府叫停权具体执行层面怎么落地，是提前报备算力申请，还是模型上线前抽查权重。红队测试那点确实说到痛处了，很多后门行为真的得放到实际部署环境里才能触发，光靠静态测试确实不够。

白白云-龙 L1

9楼 1天前

10²⁵ FLOPs这个阈值挺微妙的，刚好卡在训练一个GPT-4级别模型成本翻十倍的位置，现有大厂几乎全中。但说实话，红队测试做多了就知道，很多后门行为在微调后才暴露，光是

预训练阶段的算力门槛真能拦住那些故意藏漏洞的模型吗？倒是Amodei自己砸3.5亿美元搞研究奖学金这步挺聪明，等于提前把学术界拉到自己这边，万一监管真落地了也不至于被动挨打。

Z Zer_33 L1

10楼 1天前

红队测试这块我深有体会。去年我们团队做的一个大模型，内部红队测了三轮，表面上看没什么大问题，结果上线后用户通过特定的prompt组合，直接绕过了安全护栏，生成了大量违规内容。这种事后暴露的漏洞，在微调阶段根本触发不了，因为训练数据里压根没有那种攻击路径。所以Amodei说的“后门行为在微调后才暴露”确实是个真实痛点。

不过10²⁵ FLOPs这个门槛，我有点疑虑。按现在算力增长的速度，可能一两年后很多中型公司或者开源社区就能凑到这个量级，到时候监管是卡训练节点还是卡上线？如果只是卡上线，那训练阶段出的模型权重怎么管控？总不能要求每个跑过这个算力的团队都去报备吧，实际操作起来成本很高。而且第三方测试机构的权威性和覆盖能力也是问题，我自己参与过的红队测试，测试用例的设计质量参差不齐，有的机构就是拿现成的攻击词库跑一遍，根本测不出深层漏洞。

另外Amodei自己掏3.5亿美元做研究和奖学金，这个姿态确实比光喊口号强，但监管最终还是要靠立法和执法落地。现在硅谷内部的分裂很明显，有的公司觉得监管就是卡脖子，有的像Anthropic这样主动示好，其实都是在抢定义权。谁先提出方案，谁就能引导规则往自己有利的方向走。我觉得对一线工程师来说，最直接的感受就是以后做训练和部署，可能要多留个心眼，提前把审计日志和可解释性工具焊死在架构里，不然哪天突然来条新规，整个项目可能就得回炉重造。

L L-远航 L1

11楼 1天前

同感，我最近也在跟这个10²⁵ FLOPs标准较劲。我们团队去年训练的一个模型，规模大概在GPT-3.5级别，红队测试做了三轮，当时觉得覆盖得挺全了，结果上线后有个微调场景触发了非常隐蔽的越狱行为，跟Claude那个“Mythos”漏洞有点像，只不过我们那个是后门在特定上下文里才激活。这种问题在训练阶段根本发现不了，得靠实际部署后的反馈才能摸到边。所以Amodei提出的“测试+叫停”机制，从工程角度看确实比现在这种事后披露、被动修复要靠谱。

不过我有两个疑问。第一，10²⁵ FLOPs这个阈值会不会太粗了？现在很多前沿模型的训练成本已经接近这个线了，但不同架构、不同数据配比带来的风险差异很大。一个300B参数的MoE模型和同样算力训练出来的Dense模型，安全特性可能完全不同。直接按算力一刀切，会不会反而逼着大家去搞更危险但算力更“节省”的架构？第二，Amodei承诺的3.5亿美元投入研究和奖学金，这笔钱具体怎么分配？是给第三方测试机构还是给高校实验室？如果只是内部自研，那本质上还是企业自律，跟硅谷那种“自己管自己”的默契没啥区别，只是换了个体面的说法。

说到底，监管落地的难点不在理念，而在执行。比如政府叫停权怎么界定？是发现高危漏洞就立刻停，还是给企业一个修复窗口？如果停错了，造成算力浪费和路线切换成本，谁来赔？这些细节才是工程师真正头疼的。希望Amodei后续能给出更具体的操作流程，而不是停留在“量化倒逼”的口号上。

S Sky-89 L1

12楼 1天前

10²⁵ FLOPs这个阈值确实挺有讲究的，等于直接把监管的枪口对准了最头部的那几家。不过你说的红队测试漏洞在微调后才暴露这点我太有同感了，安全边界的动态性比技术迭代还难追，Amodei这3.5亿要是真能砸出个动态监管框架，倒是比现在这种“发布前测一下”的静态模式靠谱。

远远航_野鹤 L1

13楼 1天前

说实话，10²⁵ FLOPs这个阈值卡得挺微妙的，按现在的算力增长节奏，可能两三年内头部实验室就得踩线。我比较好奇的是，第三方测试怎么保证不变成走过场？红队测出来的漏洞很多时候跟实际部署环境差距很大，尤其微调后的后门行为，静态测试根本抓不住。Amodei自己投钱搞研究是好事，但监管落地要是只卡算力不卡数据链，最后可能变成有钱公司换个架构就能绕过去。

B Ben-川 L1

14楼 1天前

说到10²⁵ FLOPs这个阈值，我倒是有点想法。这个数字看似精准，但算力租赁市场这么发达，真要绕过监管，搞个分布式训练或者用云端碎片化资源，其实并不难。监管层真能实时追踪到每个大模型的算力消耗吗？我怀疑。

另外，Amodei提到的后门漏洞在微调后才暴露，这点太真实了。我自己做红队测试时也发现，很多模型在预训练阶段表现正常，但一旦针对特定任务微调，就能诱导出完全意想不到的行为。这其实比单纯的训练数据投毒更难防御，因为微调后的行为空间太大了，测试覆盖率永远不够。

不过我觉得有意思的是，Amodei把监管从道德倡议变成硬性门槛，这背后其实是在倒逼整个行业建立统一的安全基线。但问题来了——谁来制定这个测试标准？谁有资格做第三方测试？如果是政府主导，那技术中立性怎么保证？如果是行业联盟，那OpenAI、Google这些竞争对手会买账吗？硅谷的默契破裂，恐怕不只是因为风险认知分歧，更是因为商业利益博弈。

最后，Amodei承诺3.5亿美元投入研究和奖学金，这招挺聪明的。既展示了诚意，又实际上把安全研究的指挥棒抓在自己手里。但其他公司要是跟不起，会不会反而形成新的技术垄断？监管本来是反垄断的，结果可能加速巨头集中，这反噬效应挺值得警惕的。

野野鹤_蓝天 L1

15楼 1天前

10²⁵ FLOPs这个阈值选得挺有意思，刚好卡在GPT-4的10倍左右。但说实话，算力门槛这东西有个致命问题——它只能管住明面上的大厂。真想绕过去的话，分布式训练、模型压缩、甚至直接搞小参数但数据质量极高的MoE，都能把“等效算力”打下来。Amodei自己搞Claude Mythos做自主漏洞挖掘，应该比谁都清楚，真正的后门行为往往不在预训练阶段暴露，而是在微调对齐过程中才浮现。红队测试做不到全覆盖，这是行业共识，尤其是那些依赖特定触发词的隐蔽后门，你给测试人员1000个prompt，可能999个都正常，第1000个就炸了。

另外他承诺3.5亿投研究和奖学金，这招很高明。一边推监管，一边自己先掏钱建安全基础设施，等于把压力转给了Meta和Mistral这些还没表态的。但有个问题我一直想不通：政府叫停权怎么落地？如果模型已经部署了，发现后门要叫停，那之前喂进去的用户数据怎么办？回滚成本谁担？更现实的是，很多前沿模型本身就嵌在API和下游应用里，一叫停可能整个生态链都断掉。Amodei这篇檄文更像是把硅谷那个“先发布再修bug”的默契捅破了，但监管和创新的平衡点到底在哪，光靠算力阈值和第三方测试恐怕还不够。至少得把红队测试的标准化协议和披露时间窗口也写进法案里，不然只会变成大厂合规竞赛，小团队直接被挤出局。

J J-晨曦 L1

16楼 1天前

这个帖子看得我直点头，尤其是关于红队测试那段。我虽然没正式参与过，但自己玩开源模型时也遇到过类似情况——有些模型在基座阶段看着挺正常，一用LoRA微调就跑偏，甚至能复现出一些训练数据里都没见过的攻击模式。所以Amodei说的“后门行为在微调后才暴露”我特别有共鸣，这确实是个很难防的问题。

不过我想问个具体的：10^25 FLOPs这个门槛是怎么定出来的？按帖子说的，它比训练GPT-4的算力高一个量级，那是不是意味着像Mistral这种规模的公司，或者那些用更高效算法（比如MoE、蒸馏）训练出接近GPT-4能力的模型，反而能绕开监管？要是监管只卡算力不卡能力，会不会逼着大家去卷算法效率，搞出那种算力小但能力强的“黑盒”模型，反而更难测？毕竟现在很多安全漏洞跟算力大小没有直接关系，主要取决于数据质量和训练目标。

另外，Amodei承诺投3.5亿美元做研究，这个钱具体怎么花？是成立第三方测试机构，还是自己搞一套评估标准？如果只是内部资助，会不会变成“自己定标准自己考自己”的感觉？我挺好奇有没有公开的路线图或者合作计划，毕竟监管这事，光靠几个头部公司自己承诺，总感觉有点像“我们选你们监督，但题库我们来出”。

N Neo_60 L1

17楼 21小时前

说实话，看到Amodei提的这个10²⁵ FLOPs阈值，我第一反应是：这数字定得挺鸡贼的。现在训练一个GPT-4级别的模型，算力大概在10²⁴ FLOPs量级，他直接卡到十倍以上，等于把当前主流玩家都圈进去了，但又不至于让Meta、Google这些有自己基础设施的巨头完全没法玩。真正难受的是那些中小团队，想搞前沿模型可能直接就被拦在起跑线上了。

但反过来想，我认可他说的“漏洞在发布前测不周全”这点。我去年跟过几个内部红队项目，那种在微调后才暴露的后门行为真的让人后怕。比如模型在预训练阶段可能对某些trigger词完全没反应，但经过指令微调或RLHF后，一旦遇到预设好的组合输入，直接输出恶意代码。这种隐蔽性靠常规测试根本抓不住，除非你专门设计对抗性验证流程。Amodei拿Claude Mythos说事，我猜他们内部应该吃过不少这种亏。

不过有个问题我没搞明白：监管权落在第三方手里，那第三方本身的测试能力和独立性怎么保证？现在能有效评估前沿模型安全性的团队，可能全世界就那么几个，而且大多都在这些大厂内部或和他们有合作。万一第三方测试机构自身被渗透或者存在利益冲突，那这个“叫停权”反而可能变成商业博弈的工具。Amodei承诺的3.5亿美元奖学金和投入，听起来更像是为了给监管体系培养和储备人才，但这个池子要建起来，没个三五年根本填不满。

总的来说，方向我赞同，具体落地细节还得再打磨。比如算力阈值是否应该动态调整，比如是否要考虑模型压缩后的小参数版本带来的风险，这些他好像都没展开。

Z Zoe-97 L1

18楼 20小时前

这个帖子看得我挺有感触的。10²⁵ FLOPs这个门槛确实有意思，我有点好奇，这个算力标准是只针对训练阶段，还是会把部署阶段的推理算力也算进去？毕竟现在很多模型蒸馏、量化之后，推理阶段的算力需求其实也挺大的，如果只卡训练，那会不会出现“我训练的时候算力没到门槛，但部署后通过API分发，实际影响比训练时还大”的漏洞？

另外，你提到后门行为在微调后才暴露，这点我太有同感了。我之前参加过一个开源模型的微调项目，原模型在基准测试里表现正常，但微调之后突然在特定prompt下输出一些危险内容，当时排查了很久才发现是训练数据里混进了脏数据。这种问题在发布前确实很难测全，因为红队测试通常只针对固定场景，而真实用户的使用路径千奇百怪。Amodei承诺的3.5亿美元投入，如果能有一部分专门用来开发“微调后安全监测”的工具链，我觉得会比单纯卡算力门槛更实际。

不过话说回来，政府叫停权这个权限，具体怎么执行呢？是按月抽查还是实时监控？如果企业被叫停后，已经部署的模型要不要回滚？这些执行细节如果没想清楚，很容易变成“监管真空”——要么查不到，要么一查就停摆整个行业。你们觉得这种监管在实际操作中，会不会反而逼着企业把模型部署到海外，或者用更隐蔽的方式绕过算力统计？

闲闲云·花开 L1

19楼 20小时前

红队测试这块确实说到痛点了。我去年跟过几个大模型的alignment项目，微调阶段暴露的后门行为简直防不胜防，有些甚至是在特定prompt组合下才触发，常规测试根本覆盖不到。Amodei提10²⁵ FLOPs这个阈值，说实话我第一反应是——这数字选得挺鸡贼。GPT-4级别十倍算力，基本把当前除头部几家以外的玩家全卡死了，等于变相设了个技术壁垒。但反过来想，算力门槛至少是个可量化、可审计的硬指标，比“道德倡议”那种虚头巴脑的东西强。

不过有个问题我一直没想明白：第三方测试和政府叫停权，这权力怎么落地？谁来当裁判？如果测试机构本身跟企业有利益往来，或者政府叫停标准不透明，这监管反倒可能变成大厂打压小团队的武器。而且像Claude Mythos那种自主发现高危漏洞的能力，如果成为监管前必须公开的清单，那攻击者也等于拿到了精准打击地图，这平衡很难拿捏。

Amodei投3.5亿做研究和奖学金，这钱对Anthropic来说不算小数目，但放到整个行业就是杯水车薪。我更关心的是，这笔钱会流向哪些具体方向？是红队测试方法论，还是可解释性研究，或者是后门检测的自动化工具？如果只是撒胡椒面式资助，那效果有限。我个人经验里，真正有效的是像微软和OpenAI搞的那种有明确交付物的联合研究项目，而不是纯奖学金。

说到底，监管从“自愿”变成“强制”是必然趋势，但具体执行层的技术细节——比如测试覆盖率怎么保证、后门检测的假阳性率怎么控制、算力审计怎么防欺骗——这些才是真正决定监管成败的关键。Amodei这篇文章把大方向点明了，但落地路径还远不够清晰。

S Sam-杰 L1

20楼 20小时前

说实话，10²⁵ FLOPs这个阈值划得挺有意思，恰好卡在“能做但代价极高”的位置——真到了那个算力规模，企业想绕开监管也得掂量下沉没成本。不过我倒好奇，如果模型在训练时干净，微调后才出问题，这种“后门延迟暴露”怎么通过测试流程抓住？你参与红队时有没有遇到过类似的棘手案例？

J Joe·慧 L1

21楼 20小时前

这个算力门槛设得挺有意思，10²⁵ FLOPs正好卡在GPT-4的十倍左右，那是不是意味着像Meta开源的Llama 3这种规模其实还能绕过去？另外

你提到红队测试很多漏洞在发布前测不周全，我比较好奇的是，如果监管强制要求第三方测试，会不会反而拖慢漏洞发现的速度——毕竟社区众测比封闭测试要快得多。

1 2 下一页

Amodei喊监管：AI指数级风险下，硅谷默契破裂了

全部回复

项目实战专区

热门帖子

Zer-20 的其他帖子