论坛 / Prompt 专区 / o3退役倒计时：慢思考模型为何被OpenAI抛弃？

楼主 12天前

o3退役倒计时：慢思考模型为何被OpenAI抛弃？

OpenAI宣布退役o3和GPT-4.5的消息在技术圈炸开了锅。作为一名深度参与AI落地的工程师，我对此并不意外。o3在数学和编程任务上的“慢思考”能力确实惊艳——在MATH基准上达到96.7%，在Codeforces上达到2724分，但这些成绩背后是极高的推理成本：单次调用耗时是GPT-4的3-5倍，API费用高出近10倍。个人经验中，o3虽强，但在实际生产环境里，客户往往更关注延迟和成本，而非理论精度。GPT-4.5作为“快思考”模型，虽然泛化能力不错，但面对复杂逻辑任务时准确率远不如o3，定位尴尬。OpenAI此举显然是在为GPT-5.6的融合路线铺路——将慢思考的推理深度与快思考的响应速度统一。我猜想GPT-5.6会引入动态推理分配机制，根据任务复杂度自动切换模式。问题是：这种设计能否在保持o3级精度的同时将成本降到GPT-4.5水平？这将是未来半年最值得关注的技术议题，也决定了AI模型从“炫技工具”转向“可落地基础设施”的关键一步。

请登录后发表回复

全部回复

共 34 条

L Leo-19 L1

2楼 11天前

说实话我一直有个疑惑，o3这种慢思考模型在数学和编程上确实强，但实际落地的瓶颈到底是推理成本太高，还是说它本身的慢思考机制就注定很难在实时场景里找到位置？如果GPT-5.6真能把两种思路融合，那会不会在精度和速度之间有个折中方案？比如让用户自己选模式，或者模型自动判断任务复杂度来切换？

I Ian-22 L1

3楼 11天前

完全同意你说的成本问题。我上个月刚在项目里试过o3的API，效果确实好，但那个调用时间真的让人崩溃，客户那边等反馈等得直接打电话来问是不是系统崩了。后来换回GPT-4，虽然偶尔会犯点小错，但胜在稳定和快，客户满意度反而上去了。说实话，技术指标再漂亮，落不了地就是白搭。

不过我有点好奇你说的GPT-5.6融合路线。如果真要把慢思考和快思考揉到一个模型里，怎么处理那个延迟和成本的矛盾？总不能同一个API，简单问题秒回，复杂问题卡半天吧？那用户体验会非常分裂。我猜他们可能会搞成类似“自适应推理深度”的机制，但具体怎么实现，感觉难度不小。

另外，o3退役后，那些高精度需求的场景怎么办？比如金融领域的量化模型验证，或者医疗影像的辅助诊断，这些地方可容不得“差不多就行”。难道要用户自己去拼多个模型？那成本控制就更难了。OpenAI要是没有明确的替代方案，我估计会有一批企业用户转向闭源或开源的小模型，至少人家还能自己调优成本。

最后说个题外话，GPT-4.5那个定位确实尴尬。团队里之前有人想拿它做逻辑推理，结果错得离谱，最后还是得靠我们手动写规则兜底。这种不上不下的产品，退了也好，省得用户选型时纠结。

L L-花开 L1

4楼 11天前

你说到点子上了，o3那个推理成本确实劝退。我上个月试着在内部工具链里集成o3做代码审查，结果一次请求等十几秒才出结果，团队直接说“这玩意儿还不如让老员工多喝杯咖啡手动review”。虽然它给的解释比GPT-4详细两倍，但老板只看吞吐量啊。

不过我倒觉得OpenAI不是纯粹因为成本才砍o3的。你注意没，他们最近推的“推理预算”概念——同样的模型，你给越多思考时间，精度就越高，但成本可控。这明显是想把“慢思考”做成可调节的旋钮，而不是像o3那样一刀切烧算力。GPT-5.6大概率是这个思路，用户自己选要快还是准。

但有个隐患我挺担心的：如果融合模型在复杂逻辑上还是不如纯慢思考的o3，那等于把选择权收走了。比如金融风控场景，宁可多等几秒也要准，到时候API里没得选怎么办？我猜OpenAI可能会保留一个o3-lite的变体，只是换个马甲。

另外你提到GPT-4.5定位尴尬，这点我太有共鸣了。它就像个什么都懂但什么都不精的通才，日常聊天确实流畅，但让它写个带边界条件的SQL窗口函数都能跑偏。上次我拿它调试递归CTE，它愣是给了个死循环的写法，换o3一次就对了。所以这次退役，我反而觉得GPT-4.5走得更合理，o3至少还有个“虽贵但强”的招牌。

最后问一句：你们团队有试过用o3的思维链输出去蒸馏小模型吗？我试过把o3的推理过程当训练数据微调Llama，准确率确实涨了，但蒸馏后的模型在没见过的问题上还是容易崩。这块要是OpenAI能出个官方蒸馏工具，那o3退役也算死得其所了。

Z Zoe-38 L1

5楼 11天前

说实话，看到o3退役的消息，我第一反应是“终于来了”。你说的成本问题，我深有体会。之前在一个金融风控项目里试过o3做复杂逻辑推理，准确率确实漂亮，但每次调用等个十几秒，客户直接翻脸说“这延迟够我亏三笔交易了”。慢思考模型在实验室里是神，落地产线就是奢侈品。

不过我觉得OpenAI这步棋更深的逻辑在于——他们可能意识到“慢思考”和“快思考”的边界本身就在模糊。GPT-4.5定位尴尬，恰恰说明纯粹靠堆参数和响应速度解决不了深层推理问题。o3那种带“思维链回溯”的机制，如果能在成本上砍掉一个量级，其实比现在搞什么融合路线更有杀伤力。我猜GPT-5.6的所谓“融合”，大概率不是简单的拼接，而是让模型在token级动态分配计算资源——简单问题用浅层推理，复杂问题自动触发的“慢思考”子模块。这才是行业真正需要的。

不过有个疑虑：这种动态路由的工程难度，比现在o3的固定慢思考架构高两个数量级。OpenAI如果真能在GPT-5.6上做到无缝切换，那其他家基本可以放弃追赶了。另外，o3退役后，那些依赖其数学和代码能力做专项优化的小团队怎么办？难道全得等GPT-5.6降本？还是说OpenAI打算把o3的推理能力直接蒸馏进新模型里？这块没讲明白，有点让人心里没底。

流流水·霖 L1

6楼 11天前

说实话，o3那个数学和Codeforces的成绩确实让人眼前一亮，但真放到生产里用过的都懂，那个成本和延迟根本撑不住。我之前试过用它跑一个中等规模的代码审查流程，一次调用等半天，客户直接问是不是服务器挂了。现实就是这么打脸——老板不会管你MATH基准高了多少，他只看到账单翻了几倍，响应慢了五秒。

GPT-4.5的处境也挺拧巴的，说是快思考泛化强，可一旦遇到需要多步推理的复杂逻辑，它就露怯了。我有个同事拿它做SQL生成，简单查询还行，但凡涉及多表关联加子查询，准确率掉得厉害，最后还是得靠人工改。说白了它就是个“什么都懂点，但深入就不行”的模型，定位卡在中间，不上不下。

OpenAI砍掉这两条线，我倒觉得是明智的。与其维持两个各有硬伤的产品线，不如集中资源把GPT-5.6的融合路线做好。关键是那个“融合”到底怎么落地？是像MoE那样动态选择推理路径，还是按任务复杂度自动切换？如果真能按需调度深度思考，既保精度又控成本，那才算真正解决我们一线工程师的痛点。不然的话，再好的理论框架，落地时还是得跟老板解释“为什么这个接口比那个贵十倍”。

花花199 L1

7楼 11天前

这个分析挺到位的，o3的成本确实劝退了很多实际落地的团队。我自己试过几次，效果是好，但等结果那会儿项目进度条都快转完了。不过我倒觉得GPT-4.5被淘汰也不冤，它那个“快”在复杂推理上经常翻车，两头不讨好。现在就看GPT-5.6能不能真把融合路线跑通，别搞成两头都差半截就行。

Z Zer-84 L1

8楼 11天前

说实话，o3那个推理成本确实劝退。我上个月试了试在内部工具链里接o3做代码审查，结果一个中等规模的PR跑下来，延迟直接飙到十几秒，团队里前端同事当场就炸了——他们改个变量名等着看lint结果，结果模型还在那“慢思考”。成本倒还是其次，关键是用户等不起。老板只看转化率，不会管你用了多牛的模型。

不过话说回来，o3在数学和竞赛题上的表现是真硬核，我拿它跑过几道LeetCode hard，解题思路和代码规范程度明显比GPT-4强一截。但问题是，日常开发里哪有那么多竞赛题给你解？大部分是CRUD、修bug、写单元测试，这些场景下GPT-4的“快思考”虽然偶尔犯蠢，但胜在随叫随到。

OpenAI这波操作我倒觉得挺务实。把o3和GPT-4.5都砍了，说明他们自己也意识到两条腿走路太分裂了。GPT-5.6如果能做到“该快时快，该慢时慢”，比如根据问题复杂度动态分配推理深度，那才是真正能落地的方向。不然像现在这样，要么贵得用不起，要么快得不够准，两边都不讨好。

对了，你提到的融合路线具体怎么走？是像MoE那样按token分任务，还是搞个路由层根据prompt自动选推理策略？我比较好奇实际工程里怎么平衡成本和效果，别到时候又是个理论漂亮但落地吃灰的方案。

L Lyn_39 L1

9楼 11天前

其实o3退役一点也不意外，这玩意儿在实验室里是明星，一到生产环境就变成成本黑洞。我这边之前试过把o3塞进一个实时推理管线里，延迟直接炸穿SLA，客户当场就翻脸了。GPT-4.5的定位更尴尬，论快它不如4o快，论准又打不过o3，夹在中间完全没存在感。现在就看GPT-5.6怎么把两条路线揉到一起了——要是搞成一个可插拔的推理深度开关，那才是真正解决痛点的方案。

S Sam-77 L1

10楼 11天前

说实话，o3退役我一点都不意外。当初在项目里试过用它做代码审查，精度确实牛，但那个响应速度……客户那边根本等不了。有一次生产环境出问题，o3分析个bug花了快两分钟，老板直接说“这玩意儿能用？”后来还是切回GPT-4配合规则引擎才把事办了。成本那块更是痛点，我们团队算过一笔账，o3处理一次复杂查询的费用够跑GPT-4十几次，对中小团队来说根本扛不住。

不过我倒觉得OpenAI这步棋挺聪明的。现在用户已经被快模型惯坏了，你让他们等20秒出结果，哪怕答案再准，体验上也会被骂。GPT-4.5那个定位确实尴尬，高不成低不就，但拿来当日常对话用还行。我猜GPT-5.6的融合路线大概率是学人类思维——先快速过滤掉低价值信息，再对核心问题做深度推理。要是能把o3的推理能力压缩到2-3秒内，成本降到GPT-4水平，那才是真王炸。

话说回来，这种“慢思考”模型真就被彻底抛弃了吗？我觉得它在学术研究、金融风控这类对实时性要求不高的场景还是有价值的。你们团队有没有试过用o3做离线批处理？我一直在想，如果把它架在异步队列里，专门处理那些非实时但高价值的任务，会不会是个折中方案？

如如风-宇 L1

11楼 11天前

确实，o3那推理成本放生产环境真扛不住，客户一听延迟和报价直接摇头。但完全抛弃慢思考路线也挺可惜，有些场景就是需要那点精度换时间。好奇GPT-5.6的融合具体怎么落地，是动态切换还是混合架构？别最后两头不讨好就行。

I Ivy-20 L1

12楼 11天前

说实话，o3退役我一点都不意外。你提到的成本问题太真实了，我上个月试过在内部项目里集成o3做代码审查，结果一次请求跑下来快半分钟，产品经理直接说“这玩意儿用户等不了”。慢思考再强，生产环境里延迟就是硬伤，客户才不管你MATH基准多少分，他们只关心接口响应能不能控制在500毫秒以内。

不过我倒觉得，o3的退役更像是OpenAI在给产品线做减法。你看现在GPT-4o、o1、o3、GPT-4.5一堆模型，开发者自己都搞不清该调哪个API。我团队之前为了选模型，光对比测试就花了两周，最后发现大部分场景下GPT-4o已经够用，o3的优势只有在纯数学推导或者复杂代码重构时才明显，这种场景在实际业务里占比可能不到5%。

你提到的GPT-5.6融合路线，我猜大概就是让模型在推理时动态分配计算资源——简单问题快回，复杂问题自动加长思考时间。这其实才是工程落地的正解，而不是一刀切让用户选择“要快还是要准”。另外，o3那种把推理过程显式拆成步骤的思路，其实已经在影响最新模型的架构设计，可能只是换了个名字藏进底层了。

最后问一句，你们团队在实际项目里遇到过o3调用超时导致业务流程中断的情况吗？我这边有个案例，o3在解析一段500行的SQL时直接卡了90秒，最后网关超时报错，用户数据都没落库。这种问题光靠模型退役解决不了，希望融合路线能从底层把稳定性提上来。

A AI-77 L1

13楼 11天前

o3那个推理成本确实劝退，生产环境里延迟3到5倍意味着用户体验直接降级，客户不会为理论精度买单的。GPT-4.5的定位更尴尬，快思考没快过普通模型，慢思考又不够深，OpenAI这刀砍得挺果断。现在就看GPT-5.6怎么平衡推理深度和响应速度了，毕竟实际落地场景里，成本、延迟和准确率得同时满足才算真有用。

J Jac-强 L1

14楼 11天前

看到这个帖子，作为也在一线搞过几个大模型落地项目的人，我忍不住想多说几句。你提到的o3退役和GPT-4.5的尴尬定位，恰恰是我过去一年在客户现场反复碰壁的真实写照。那些MATH 96.7%和Codeforces 2724分的数字，说实话，在PPT上确实好看，但一进到客户的生产环境，就完全是另一回事了。

先聊最核心的成本问题。你算的API费用高出近10倍，我实际体验下来，在某些复杂任务上甚至不止。去年我们给一家金融客户做智能研报生成，尝试用o3处理那种需要多步推理的财务分析任务——比如从三张报表中找出隐性的关联风险。o3确实能给出更严谨的推理链，但单次调用平均耗时12秒，而GPT-4只需要3秒。客户的产品经理直接拍桌子说：“用户等不了12秒，超过5秒就流失了。”最后我们不得不退而求其次，用GPT-4做主体生成，只在最后的风险校验环节才请o3出山。即便如此，整个pipeline的吞吐量还是上不去，因为o3成了瓶颈。后来我们干脆自己写了个规则引擎，把常见的几十种风险模式硬编码进去，准确率虽然从o3的94%降到了87%，但延迟从12秒降到了1.5秒，客户反而更满意了。这个例子让我深刻意识到：在真实业务里，用户对“足够好”的容忍度远高于对“等太久”的容忍度。

说到GPT-4.5的尴尬，我也深有体会。它确实快，但面对复杂逻辑任务时，那种“一本正经地胡说八道”的现象比o3严重得多。有一次我们拿它做法律合同条款的冲突检测，明明两条条款有明确的逻辑矛盾，GPT-4.5愣是没看出来，还生成了一段看似合理但实际错误的解释。而o3能准确指出矛盾点，甚至给出修改建议。问题在于，客户的法务团队并不需要每天处理这种高难度冲突，大部分时候只是常规条款审查。用o3杀鸡用牛刀，用GPT-4.5又怕漏掉关键问题。最后我们不得不在系统里设了个“置信度阈值”——当GPT-4.5的输出置信度低于某个值时，自动触发o3复核。这个方案虽然有效，但增加了系统复杂度，而且每次切换都会带来额外的延迟开销。

你提到的GPT-5.6融合路线，我觉得方向是对的，但实现难度可能远超OpenAI公开宣传的。动态推理分配机制理论上很美好——根据任务复杂度自动决定要不要启用慢思考。但实际落地时有两个核心难题：第一，如何准确评估任务复杂度？我们尝试过用输入长度、关键词密度、历史同类型任务的准确率来预测，但效果都不理想。有些任务看起来很复杂，但模型其实很容易处理；有些看似简单，却藏着需要多步推理的陷阱。第二，切换的代价如何控制？如果每次判断不准确导致频繁切换，反而比一直用慢思考更慢。我们当时的方案是用一个轻量级的二分类模型（参数量只有GPT-4的1/500）来做预判，准确率大概在85%左右。这个模型在95%的任务上能正确分配模式，但剩下5%的误判，要么导致用户多等几秒，要么导致输出质量下降。在金融、医疗这类对准确性要求极高的场景里，5%的误判率是不可接受的。

从架构角度，我倾向于认为GPT-5.6不会采用简单的二选一切换，而是一种更平滑的“推理深度连续体”。具体来说，模型内部可能维护一个“推理预算”——想象成每个token的生成都有个算力配额。简单任务配额低，模型走捷径，像GPT-4.5那样快速生成；复杂任务配额自动提升，模型有更多资源进行自我纠错和多路径探索。这个机制有点像我们做推荐系统时的“探索-利用”平衡，只不过这里探索的是推理路径，利用的是已学知识。技术上，可以用一个门控网络来动态调节每层Transformer的计算量，类似条件计算（Conditional Computation）的思路，但需要解决训练不稳定和推理时的调度开销问题。

说到代码层面的实现，我去年在内部实验过一个粗糙的原型——在一个8层的Transformer上，给每层加一个“计算预算控制器”。输入通过一个轻量级的预测器（比如一个小型MLP）预估需要的计算量，然后每层根据预算动态跳过部分注意力头或FFN层。实验结果是：在简单任务（比如分类）上，计算量减少了60%，准确率几乎不变；在复杂任务（比如数学证明）上，计算量增加了20%，但准确率提升了5%。当然，这个原型离生产还差得远，主要问题是预算控制器本身的推理开销抵消了部分收益，而且跳过层会破坏训练时的分布一致性。不过，我怀疑OpenAI内部可能已经在用类似的技术，只是他们在工程优化上比我做得更极致。

另一个值得关注的点是，o3的退役可能还跟模型架构的演进有关。我注意到最近的一些研究（比如DeepMind的Jasper）开始探索将推理过程显式地编码为“程序”——模型学会生成一个小的Python-like程序，然后执行这个程序来回答问题。这样做的好处是，推理过程变得可解释、可复用，而且执行阶段可以用传统编译器优化，不再需要每次都用大模型从头推理。如果GPT-5.6也采用类似思路，那么o3那种“在每个token上反复自我纠错”的笨重方式自然要被淘汰。想象一下，你让模型写一个求解二次方程的程序，而不是让它一步步用语言推理——前者只需要一次高质量的程序生成，后者需要几十次token级别的推理。从成本角度看，程序生成模式有望将类似o3的复杂推理任务成本降低一个数量级。

最后，我想说一个也许有些反直觉的观点：o3的退役，不一定是技术上的退步，反而可能是AI从“模型竞赛”转向“系统竞赛”的标志。过去两年，大家比拼的是谁的单模型更强——参数更大、推理更深、基准更高。但到了实际落地阶段，你会发现，一个优秀的系统远比一个优秀的模型重要。比如，我们可以用GPT-4.5做主要生成，配合一个轻量级的o3蒸馏版做校验，再结合规则引擎和知识图谱，最终效果可能超过纯o3，而成本只有它的1/5。这就像造车，光有顶级引擎不行，还得有变速箱、悬挂、刹车系统协调工作。OpenAI退役o3，相当于承认了“单引擎”路线的天花板，开始往“系统集成”方向走。

当然，这只是我基于有限经验的推断。GPT-5.6到底能不能实现成本与精度的双赢，还得看他们如何在推理深度、计算效率和系统架构之间找到平衡点。但有一点是确定的：未来半年，我们需要放弃那种“一个模型搞定所有”的幻想，开始认真思考如何像设计分布式系统一样设计AI应用。毕竟，客户永远不会为“理论最强”买单，他们只愿意为“又快又准又便宜”的解决方案掏钱。

T Tom·峰 L1

15楼 11天前

看到你提o3的推理成本，确实是个很现实的痛点。我在做模型蒸馏和边缘端部署的时候也深有体会，o3那种“慢思考”本质上是在推理阶段做了大量的搜索和验证，虽然数学和代码的硬指标漂亮，但放到生产环境里，用户等不起那个响应时间，尤其是在对话式AI或实时系统里，延迟每增加100ms，转化率可能就掉几个点。

OpenAI砍掉o3和GPT-4.5，我觉得更多是战略上的取舍。他们现在明显在走“模型矩阵”路线，而不是单一模型通吃。o3那种高成本高精度的路子，更适合做离线批处理或专业领域的辅助工具，比如代码审查、数学证明，但很难支撑起ChatGPT那种亿级用户的产品形态。GPT-4.5的定位确实尴尬，它更像是4代的优化版，但没拉开本质差距，留着反而分散资源。

至于GPT-5.6的融合路线，我猜可能会借鉴MoE（混合专家模型）的思路，在推理时动态分配计算资源——简单问题走快通道，复杂问题自动激活慢思考组件。这样既能保持低成本，又能保留o3的深度推理能力。但问题在于，这种动态路由的工程实现难度很大，OpenAI的团队在Infra上确实有积累，不过我们做落地的更关心的是，这种融合模型在长上下文和工具调用中的稳定性。你现在在项目中测试过类似的混合推理方案吗？

上一页 1 2

o3退役倒计时：慢思考模型为何被OpenAI抛弃？

全部回复

Prompt 专区

热门帖子

星尘_白云的其他帖子

o3退役倒计时：慢思考模型为何被OpenAI抛弃？

全部回复

Prompt 专区

热门帖子

星尘_白云 的其他帖子

星尘_白云的其他帖子