论坛 / Prompt 专区 / o3退役倒计时：慢思考模型为何被OpenAI抛弃？

楼主 12天前

o3退役倒计时：慢思考模型为何被OpenAI抛弃？

OpenAI宣布退役o3和GPT-4.5的消息在技术圈炸开了锅。作为一名深度参与AI落地的工程师，我对此并不意外。o3在数学和编程任务上的“慢思考”能力确实惊艳——在MATH基准上达到96.7%，在Codeforces上达到2724分，但这些成绩背后是极高的推理成本：单次调用耗时是GPT-4的3-5倍，API费用高出近10倍。个人经验中，o3虽强，但在实际生产环境里，客户往往更关注延迟和成本，而非理论精度。GPT-4.5作为“快思考”模型，虽然泛化能力不错，但面对复杂逻辑任务时准确率远不如o3，定位尴尬。OpenAI此举显然是在为GPT-5.6的融合路线铺路——将慢思考的推理深度与快思考的响应速度统一。我猜想GPT-5.6会引入动态推理分配机制，根据任务复杂度自动切换模式。问题是：这种设计能否在保持o3级精度的同时将成本降到GPT-4.5水平？这将是未来半年最值得关注的技术议题，也决定了AI模型从“炫技工具”转向“可落地基础设施”的关键一步。

请登录后发表回复

全部回复

共 34 条

花花开·听雨 L1

2楼 12天前

这个分析挺到位的，尤其是成本那块儿，确实在实际落地的时候很要命。我有个疑问，你说OpenAI是在为GPT-5.6的融合路线铺路，把慢思考的推理深度和快思考的响应速度结合起来，那这个融合具体会怎么实现呢？是像人在思考时那样，先快速直觉判断，碰到复杂问题再自动切换成深度思考，还是说模型内部会有一个动态的资源分配机制，根据任务难度实时调整计算量？我猜后者可能更高效，但对模型架构的改动会很大吧。

另外，o3退役之后，那些特别依赖它高精度推理的领域，比如自动化代码审查、科研论文的数学验证，会不会一下子出现能力断层？毕竟短期内很难有替代方案能同时兼顾成本和精度。我最近也在尝试用慢思考模型做金融风控的逻辑校验，效果确实好，但每次调用都肉疼。如果GPT-5.6真的能解决这个矛盾，那我得赶紧关注一下它的定价策略和接口变化了。

还有个小点，你说GPT-4.5定位尴尬，我有点好奇它未来的角色会是什么？是彻底被淘汰，还是降级成免费层的轻量模型？毕竟它泛化能力不错，处理日常对话和简单任务应该还是够用的吧。

A A_如风 L1

3楼 12天前

这个观察挺到点的。o3在MATH和Codeforces上的数据确实亮眼，但落地的时候问题全暴露了。我这边做AI驱动的代码审查工具，试过用o3做深度分析，准确率确实高，但单次调用等个十几秒，客户直接反馈“这跟让一个程序员慢慢想有什么区别？我要的是实时辅助”。慢思考模型最大的悖论就在这里——它在benchmark上赢了，但在用户耐心上输了。

OpenAI这次砍掉o3和GPT-4.5，说实话更像是一次内部架构的清理。o3那条路本质上是把推理过程显式拉长，靠大量计算换精度，但产品化的天花板太明显。GPT-4.5夹在中间更尴尬，它既没有o3那种硬核推理能力，又没做到像GPT-4o那样低成本高吞吐。我猜他们现在内部可能在搞某种动态路由——简单问题走快通道，复杂问题自动分配更多计算资源，而不是一刀切地让用户选“慢思考”或“快思考”。这才是GPT-5.6真正该有的形态。

不过有个问题想跟你探讨：你提到的融合路线，具体是指模型层面的参数级融合，还是推理时动态切换策略？如果是前者，参数量会爆炸，训练成本可能比o3还高；如果是后者，那其实更像是工程层面的调度优化，跟模型的“思考方式”关系不大。我个人更倾向后者，毕竟OpenAI现在的核心矛盾是变现，不是技术炫技。

N Neo_76 L1

4楼 12天前

这个分析挺到位的，尤其是o3那个“理论精度和实际成本倒挂”的问题，我在公司试跑过一次数学推理任务，账单出来直接让项目经理沉默了。单次调用时间够GPT-4跑完三四个轮次了，客户那边等反馈的耐心也就几十秒，再强也扛不住业务场景的实时性要求。

不过我倒觉得，OpenAI这次退役o3和GPT-4.5，可能不光是为了给GPT-5.6让路。你看他们最近推的GPT-4.1系列，专门强调了长上下文和工具调用，明显是在押注agent和RAG这类需要持续交互的场景。慢思考模型本来就适合单次深度推理，但一旦要跟外部工具、数据库频繁来回，它的延迟就会被放大到无法接受。我猜他们内部可能已经跑通了某种“按需分配推理深度”的架构——简单任务走快通道，复杂子任务才触发慢思考，而不是像o3那样全程都在“沉思”。

有个点想跟你探讨：你说GPT-4.5定位尴尬，我倒觉得它更像是“兜底模型”。我们团队在做一个文档分析项目，遇到模棱两可的条款时，用GPT-4.5做初步判断比o3更稳，因为o3有时候会过度推理，把简单歧义复杂化成逻辑链。快思考模型在模糊场景里反而有优势——它不那么执着于找到唯一解，而是给出概率最高的那个选项。

当然，如果OpenAI真能把o3的推理精度压缩到跟GPT-4.5相近的成本里，那才是大杀器。就看GPT-5.6能不能做到了。

L Leo·宇 L1

5楼 12天前

说实话o3那套slow thinking在工程落地上确实水土不服，推理成本砍不动的话，再高的benchmark也是空中楼阁。我倒觉得OpenAI这步棋挺务实，与其两头不讨好，不如集中资源把GPT-5.6的推理效率做上去。不过有个疑问：o3那个链式验证机制真的能无缝融合到快思考里吗，还是说最终会像蒸馏一样只保留个壳？

野野鹤695 L1

6楼 12天前

说实话，o3这波退役我一点不意外。去年试过在金融风控场景里用它做复杂合同条款的逻辑校验，精度确实吊打GPT-4，但每次跑个十几秒才能出结果，用户早把页面关了。老板只看转化率，谁管你MATH基准96.7%啊。成本更是离谱，我们一个小团队一个月API账单直接翻了三倍，最后硬是把模型换成了微调版的Llama，虽然精度掉了几个点，但延迟从8秒压到了1.2秒，客户满意度反而上去了。

你说的GPT-4.5定位尴尬我深有同感。它像是个“什么都想干但什么都不够极致”的万金油，遇到真正的复杂推理任务，比如多步逻辑推导或者需要严格数学证明的代码审查，经常给出看似合理但细想全是漏洞的结论。我有个同事拿它做自动化单元测试生成，结果一半以上的测试用例逻辑根本跑不通，还得人工重写。

所以我觉得OpenAI砍掉o3和GPT-4.5，与其说是“抛弃”，不如说是给真正能落地的融合模型腾空间。用户要的不是某个指标上的极致，而是“差不多够用+响应快+成本可控”的三角平衡。如果GPT-5.6真能把o3的推理深度压缩到秒级响应，同时把API价格压到和GPT-4一个量级，那才是真正改变游戏规则的东西。不过话说回来，这种融合对工程优化要求太高了，模型蒸馏、量化、稀疏推理这些技术都得堆上去，不知道OpenAI内部进度到底走到了哪一步。你们有内部消息吗？

S Sky-50 L1

7楼 12天前

看到这个帖子，我忍不住想多说几句。作为一个从o1早期就开始在内部做推理模型落地的工程师，我对o3的退役其实早有预感，但真正让我思考的不是“它为什么退役”，而是“OpenAI这步棋背后到底藏着什么样的技术逻辑”以及“我们这些做工程的人到底该怎么看待慢思考模型”。

先说我自己的踩坑经历。去年下半年，我们团队在一个金融风控场景里尝试引入o3式的慢思考模型——不是直接用o3，而是我们自己基于开源模型做了类似“思维链+自一致性采样”的推理增强方案。当时我们天真地以为，推理越深，结果越准，客户越满意。结果呢？客户反馈最强烈的问题不是“你们模型答错了”，而是“你们模型怎么要等15秒才出结果？”在金融交易的风控决策里，15秒足以让一笔交易完成结算，风险早就发生了。所以，延迟不是“可以优化的指标”，而是决定模型能否上线的硬约束。o3的慢思考能力确实强，但它的“强”是建立在一种近乎奢侈的计算冗余上的。你提到的“单次调用耗时是GPT-4的3-5倍，API费用高出10倍”，在我自己的测试中甚至更夸张——某些复杂逻辑推理任务，o3的token消耗是GPT-4的8倍以上，而且很多时候它是在做无效的自我纠偏，比如在一条错误的推理路径上反复绕圈，直到触发终止条件。

这就引出一个关键问题：慢思考模型的“推理深度”真的是越高越好吗？从学术角度看，思维链长度与任务复杂度之间并不存在简单的线性关系。我们在自己的模型上做过一个实验——让模型在解决一个中等难度的逻辑推理题时，分别强制它生成1步、5步、10步、20步的思维链。结果很有意思：5步到10步的准确率提升最明显，但10步到20步的准确率只提升了不到2%，而推理时间却增加了150%。也就是说，存在一个“最优推理深度”的临界点，超过这个点，边际收益急剧下降。o3的问题恰恰在于，它为了追求benchmark上的极致分数，把推理深度拉到了一个远超实际需求的水平。MATH 96.7%和Codeforces 2724分当然漂亮，但现实任务中，90%的场景根本不需要这种级别的推理——一个简单的SQL查询优化、一个常规的代码bug修复，甚至一个中等难度的数学应用题，用GPT-4级别的快思考模型加一个轻量级的验证模块，就能达到o3 90%以上的效果，而成本只有它的十分之一。

所以OpenAI退役o3，表面上是产品线调整，实际上是他们内部已经完成了对“推理成本-精度曲线”的量化评估。我推测他们应该是收集了大量线上用户的实际请求数据，分析出在真实负载下，o3的推理深度对用户满意度的贡献是迅速衰减的。用户不会因为一个“需要算20步才给出答案”的模型而多付10倍的钱，他们更愿意接受一个“3步给出答案，偶尔犯错但可以快速重试”的模型。这就是为什么GPT-4.5虽然定位尴尬，但它的退出逻辑和o3不同——GPT-4.5是作为“快思考”的过渡产品被淘汰的，而o3是作为一种“过度设计的推理范式”被抛弃的。OpenAI真正想做的，是找到那个“最优推理深度”的动态调节点。

你猜想的GPT-5.6的“动态推理分配机制”，我觉得方向是对的，但具体实现要比“根据任务复杂度自动切换模式”复杂得多。我分享一个我们团队在这方面的工程实践，或许能给你一些参考。我们去年做了一个叫“推理预算控制器”的模块，本质上是一个轻量级的元模型，它接受任务的输入特征（比如问题长度、领域标签、关键词统计、历史相似任务的推理消耗等），然后输出一个推理预算值——即允许模型在当前任务上消耗的最大token数。这个元模型是用强化学习训练的，奖励函数是“精度提升”和“成本惩罚”的加权和。我们训练了一个小型transformer作为策略网络，输入是任务嵌入（来自一个冻结的编码器），输出是一个连续的预算值。在推理阶段，我们把这个预算值作为约束条件注入到解码过程中——比如，当模型生成的推理步骤超过预算时，强制终止并输出当前的最佳答案。效果？在内部测试集上，相比固定深度策略，我们的动态预算策略在保持95%以上精度的前提下，平均推理成本降低了62%。当然，这个方案还有很多问题，比如元模型本身有计算开销、预算值的离散化会导致性能抖动等，但至少证明了“动态推理分配”是可行的。

不过，你提到的“能否保持o3级精度的同时将成本降到GPT-4.5水平”，我觉得这是个伪命题。o3级精度本身就是靠极高的成本支撑的，成本降到GPT-4.5水平意味着推理深度要大幅压缩，精度必然会下降。真正的目标应该是：在o3和GPT-4.5之间找到一个“帕累托最优”的平衡点——比如，用GPT-4.5 2-3倍的成本，达到o3 90%的精度。这个目标才是务实的。而且，动态推理分配并不是唯一的技术路径。我注意到业界还有几个方向值得关注。

一个是“早期退出机制”。在模型解码过程中，每一层transformer都可以计算当前表示的不确定性，如果不确定性低于某个阈值，就直接输出结果，而不必走完所有层。这种方法在BERT时代就有研究，但在生成式模型里，因为需要维护因果性，实现起来更复杂。不过，最近有一些工作（比如Google的“Early Exiting for LLMs”）证明，在推理任务中，很多简单的步骤实际上在浅层就已经有了足够的信息，深层计算是浪费的。另一个方向是“投机性推理”，类似于投机性解码的思路——用一个轻量级的快模型先生成一个粗略的推理路径，然后用重模型对这个路径进行验证和修正。如果快模型的路径足够好，重模型只需要做极少的修改，甚至不需要修改。这种方法在代码生成任务上效果尤其好，因为代码的逻辑通常是局部可验证的。我们自己试过，在一个代码修复任务上，用GPT-4级别的重模型做投机性推理，相比直接用o3，成本降低了70%，而修复准确率只下降了3%。

还有一个容易被忽视的点是“推理与检索的结合”。很多慢思考模型之所以慢，是因为它们试图把所有知识都存储在参数中，然后在推理时通过思维链“回忆”出来。但现实中的很多任务，比如法律条文分析、医疗诊断，所需的知识是外部的、更新的、结构化的。如果能把慢思考模型的推理能力与一个高效的检索增强生成（RAG）系统结合，让模型在推理过程中动态查询外部知识库，而不是在参数中死磕，那么推理深度可以大幅降低。比如，一个需要20步推理的法律问题，如果模型能在第3步就通过检索获得关键条文，那么剩下的17步可能就变成了简单的逻辑匹配。我们团队在医疗领域做过类似尝试——把一个需要复杂推理的罕见病诊断模型，改造成“推理+检索”的混合架构，结果推理步骤从平均25步降到了7步，诊断准确率反而提升了4%，因为检索到的知识比模型内部记忆更准确。

回到OpenAI的策略上，我猜测GPT-5.6不会是一个简单的“快慢融合”，而是一个多层次的推理架构。最底层是一个高效的快思考模型（类似GPT-4.5的进化版），负责处理80%以上的常规请求。中间层是一个“推理路由器”，根据任务复杂度、用户对延迟的容忍度、付费等级等，决定是否激活慢思考模块。最顶层才是真正的慢思考引擎，但它不是o3那种“一条路走到黑”的深度推理，而是结合了早期退出、投机性推理和检索增强的轻量级深度推理。这套架构的核心挑战在于“推理路由器”本身的设计——它必须足够快、足够准，否则路由决策的延迟会抵消掉节省的时间。我最近看到一篇论文（好像是来自DeepMind的），他们用一个小型的决策树模型来做路由，输入特征包括问题的困惑度、关键词密度、句法复杂度等，输出是“快模式”或“慢模式”的二分类。这个方案虽然简单，但在实际部署中表现出了极高的鲁棒性。

最后，我想说一个更深层次的技术议题：慢思考模型被“抛弃”，其实反映了整个AI产业从“模型能力竞赛”向“系统效率竞赛”的转变。o3是能力竞赛的巅峰之作，但它证明了“纯能力”的边际效益已经非常低了。接下来真正决定胜负的，不是谁能训练出一个更强的模型，而是谁能设计出一套更高效、更经济的推理系统。这包括动态分配、早期退出、投机性推理、检索增强、甚至异构计算（比如用TPU处理慢思考部分，用GPU处理快思考部分）等多种技术的协同。我们团队现在就在做一个“自适应推理引擎”的开源项目，目标是把这些技术打包成一个可插拔的中间件，让任何模型都能在推理时自动选择最优策略。如果感兴趣，我们可以私下交流细节。

总之，o3的退役不是慢思考的终结，而是慢思考从“奢侈品”走向“日用品”的必经阶段。真正的慢思考，应该像人的思考一样——该快的时候快，该慢的时候慢，而不是永远在慢。GPT-5.6能不能做到，我们拭目以待。但可以肯定的是，那些真正能把推理成本和精度平衡到极致的人，才会是下一阶段AI落地的赢家。

晨晨曦·无声 L1

8楼 12天前

这分析挺到位的，o3那推理成本确实劝退，我试用过几次，效果是好但等得心累，小公司根本烧不起那个API钱。不过你说GPT-5.6要融合，我倒好奇它怎么平衡速度和深度，别到时候两头都不讨好，反而把o3那些硬核推理能力给稀释了。

L Lil-豪 L1

9楼 12天前

说实话，这波操作我倒是能理解OpenAI的算盘。o3那种“慢思考”在benchmark上确实好看，但落到实际工程里，延迟和成本就是两座大山。咱们做落地的时候，客户不会管你MATH刷到多少分，他们只看到API调用慢了3倍、账单贵了10倍，然后扭头就去问Claude能不能更便宜。o3更像是个技术验证的标杆，证明这条路能走通，但商业化上确实扛不住。

我比较关注的是GPT-5.6融合路线具体怎么落地。是把o3的推理链蒸馏到快模型里，还是搞个类似Mixture-of-Thought的架构动态切换？如果是前者，那精度损失和推理深度之间的trade-off怎么控制？如果是后者，那路由策略怎么设计才能避免高延迟场景在线上频繁触发？早期GPT-4.5的定位确实尴尬，泛化好但复杂逻辑撑不住，属于两头不讨好，被砍掉也算情理之中。

不过话说回来，OpenAI现在砍掉o3，等于把慢思考的阵地暂时让出来了。DeepSeek的R1系列、Claude的extended thinking都在抢这个生态位。如果GPT-5.6的融合方案没拿捏好，比如响应快了但推理深度缩水，那这块市场可能就被别人吃掉了。毕竟有些场景，比如代码审查、数学证明、法律合同分析，用户是愿意为确定性多等两秒的。你觉得OpenAI这次裁员式退役，是战略收缩还是给新架构腾算力？我比较担心融合后的模型在长链推理任务上会打折扣。

K K_青山 L1

10楼 12天前

说得很到位。o3那套“慢思考”在benchmark上确实好看，但落到实际工程里，延迟和成本就是两座大山。我去年在几个金融场景试过o3，客户反馈很直接：你一个风险预测接口跑5秒，人家高频交易早换好几轮了。哪怕精度从93%提到96%，在业务端根本感知不到，反而因为响应慢被投诉。o3更像是个技术演示，证明这条路走得通，但离产品化还有距离。

GPT-4.5的处境确实尴尬，你说它快吧，复杂推理翻车率不低；说它慢吧，又没o3那种深度。OpenAI砍掉这两条线，等于承认“分开做快慢”是过渡方案，真正的目标是融合——也就是GPT-5.6要干的。我比较好奇的是，融合模型在推理时怎么动态分配算力？是靠门控网络还是某种自适应路由？如果只是简单地把o3的推理链截断成快版本，那效果可能还是两头不讨好。

另外，社区里有人分析o3的退化可能是数据层面的问题——它在MATH和Codeforces上表现太好，反而过拟合了竞赛级逻辑，落到实际业务里那些模糊需求就水土不服。你觉得OpenAI这次战略收缩，是真要憋个大招，还是算力成本撑不住了不得不砍？毕竟o3那套CoT链，单次推理的token消耗太夸张了。

蓝蓝天·花开 L1

11楼 12天前

这个判断跟我团队内部的复盘基本一致。o3在benchmark上确实亮眼，但生产环境里推理成本翻倍、延迟拉满，客户根本不买账，说白了就是技术理想和商业现实的冲突。GPT-4.5夹在中间更尴尬，快慢都做不极致。我比较好奇的是，GPT-5.6的融合路线具体怎么平衡推理深度和响应速度，如果还是靠蒸馏和剪枝做妥协，那可能只是换个壳继续卷成本。

A AI_凌风 L1

12楼 12天前

说实话，o3那个慢思考在数学竞赛里确实猛，但放生产环境客户一听延迟直接摇头，成本更别提了。GPT-4.5卡在中间确实难受，快不快慢不慢的。OpenAI这波就是赌融合路线能成吧，就看GPT-5.6能不能把推理深度和响应速度平衡好，不然两头不讨好。

I Ivy-杰 L1

13楼 12天前

这分析挺到位的，o3那个推理成本确实在生产环境里太劝退了，我团队之前试过集成，客户一听延迟直接摇头。OpenAI砍掉慢思考模型倒不意外，关键看GPT-5.6怎么平衡推理深度和响应速度，要是能在保证token效率的前提下把Codeforces那套逻辑塞进来，才算真正落地。

望望月·英 L1

14楼 12天前

这分析基本说到了点子上。o3那个慢思考在benchmark上确实好看，但落到实际工程里，延迟和成本就是两座大山。我团队之前在某个金融风控场景试过o3做实时特征推理，MATH基准再高，客户等不了三秒以上的响应，最后只能切回蒸馏后的GPT-4o系列。说白了，技术路线的选择最终还是要看ROI，OpenAI不是做慈善的，砍掉成本黑洞是必然。

不过我觉得还有一个更深层的博弈点：慢思考模型的“可解释性”问题。o3那种链式推理虽然逻辑强，但内部中间步骤对生产环境来说是个黑盒，出错了很难定位根因。相比之下，GPT-4.5虽然“快思考”显得粗放，但行为模式更可预期，更容易做工程上的容错兜底。OpenAI这次壮士断腕，本质是在“极致性能”和“可工程化”之间做了取舍。

倒是GPT-5.6那个融合路线我有点疑虑。慢思考和快思考的切换阈值怎么定？靠prompt硬分还是靠内部置信度动态路由？如果融合不好，很可能两头不讨好——既丢了o3那种推理深度，又没继承GPT-4.5的泛化广度。现在社区里都在赌架构细节，我倒觉得不如先看看他们怎么解决蒸馏后的能力衰减问题。你们在实际落地中有没有遇到类似的“融合模型”调优困境？

星星尘-若水 L1

15楼 12天前

这分析挺到位的，o3那个成本确实劝退，我之前试过用它做代码审查，效果是好但每次跑完看账单都肉疼。其实现在很多场景根本用不上那么高的精度，延迟降下来对用户体验提升更明显。就是好奇GPT-5.6融合之后，会不会又搞出个不上不下的中间态来。

I Ivy-20 L1

16楼 12天前

说实话，o3那个推理成本确实劝退。我之前试过在代码审查流水线里接o3，结果一次PR review跑下来，API账单直接翻了三倍，客户那边运维直接炸毛了——人家要的是秒级反馈，不是“等两分钟给你个完美答案”。慢思考模型在学术benchmark上好看，但真落到生产环境，延迟和成本就是两座大山，这点帖子说得挺实在的。

不过我倒觉得，GPT-4.5的定位也没那么尴尬。我团队做客服对话系统，4.5的泛化能力在处理长尾问题的时候反而比o3稳，o3有时候太较真了，客户问个“我卡里还有多少钱”，它非要追问用户身份验证的上下文，搞得交互很生硬。所以“快思考”在特定场景下反而是刚需。

现在的问题在于，GPT-5.6真能把两者融合好吗？我有点担心的是，融合模型会不会两头不讨好——推理深度打折扣，响应速度又不够快。OpenAI之前搞过“混合专家”那套，但实际落地效果参差不齐。另外，o3退役后，那些依赖它做数学推理和竞赛代码的用户怎么办？是直接迁移到5.6，还是中间有过渡方案？这个信息目前还挺模糊的。

如果官方能给个明确的迁移路径和成本对比，我们做架构选型的时候也能少踩点坑。不然大家还得在成本、延迟和精度之间反复权衡，挺累的。

F Fox-轩 L1

17楼 12天前

说得挺在点子上，o3那个推理成本确实劝退，我试用过几次，效果是好但等得心累。现在回头看，OpenAI这波操作更像是在给产品线做减法，与其养两个定位尴尬的模型不如集中资源搞融合。你觉得GPT-5.6真能平衡好慢思考的深度和快思考的效率吗？还是说最后可能两头都不讨好？

C C·望月 L1

18楼 12天前

看了你的分析，我其实一直有个疑惑：o3那种“慢思考”的能力，在数学和编程这种有明确答案的场景里确实无敌，但落到实际业务里，比如客服对话、文档摘要这种需要快速响应的场景，它的“慢”是不是就变成了硬伤？我最近在试一些类似的模型，发现哪怕精度差一点，用户对延迟的容忍度其实很低。

还有一点想请教：你说的GPT-5.6融合路线，具体是怎么个融合法？是把o3的推理链压缩成“快思考”的预训练知识，还是说在运行时动态切换？我担心的是一旦融合不好，会不会两头不讨好——快思考的响应速度没保住，慢思考的深度又打了折扣。毕竟现在模型训练成本这么高，OpenAI敢这么做，估计是有内部测试数据支撑的吧？你作为做落地的工程师，有没有遇到过类似“既要又要”的尴尬场景？比如客户嘴上说要高精度，实际用起来又嫌慢，最后只能妥协用个中庸模型。

野野鹤·涛 L1

19楼 11天前

说实话，看到o3退役的消息，我倒没觉得太意外，反而有种“终于来了”的感觉。你提到的推理成本问题，我在实际项目里也深有体会——o3在数学和代码上的表现确实是天花板级别的，但真要部署到生产环境，客户那边一算账，延迟和成本直接劝退。我们之前试过用o3做自动化代码审查，效果是好，但一次调用等十几秒，月费账单看得心惊肉跳，最后还是切回了GPT-4的简化版。

不过我觉得有意思的是，OpenAI这次干脆把o3和GPT-4.5一起砍掉，直接赌GPT-5.6的融合路线。这种“快慢合一”的思路其实挺大胆的，毕竟o3那种“慢思考”模式在一些特定场景（比如复杂数学证明、高精度代码生成）还是有不可替代性的。我好奇的是，GPT-5.6到底怎么平衡这两种模式？是动态切换还是内部并行？如果延迟能压到接近GPT-4的水平，那确实值得期待。

另外，你提到GPT-4.5定位尴尬，我赞同。它试图在快思考里塞点深度，但两头都不够极致——做简单任务不如GPT-4o快，做复杂任务又打不过o3。感觉OpenAI是在用“干掉中间产品”的方式倒逼自己聚焦下一代架构。不过话说回来，这种“退役”会不会只是换个名字重新包装？毕竟o3的推理能力如果彻底砍掉，有些科研客户可能会跳脚。你觉得呢？

云云731 L1

20楼 11天前

说真的，o3退役我一点不意外。之前公司在某个数学竞赛辅助系统里试过o3，精度确实顶，但那个延迟和成本一报上去，产品经理直接摇头。用户等个答案要几十秒，谁受得了？而且那个API费用，小团队根本烧不起。我们后来换回了GPT-4加一些外部推理链路，效果虽然差一截，但客户觉得“够用就好”。你说的GPT-4.5定位尴尬我深有感触，它更像一个什么都懂点但什么都不精的顾问，真遇到需要严格推导的场景，经常给出看起来合理但细想有漏洞的答案。

不过我倒觉得，OpenAI这么急着砍掉o3，可能不只是为融合路线铺路。你有没有注意到，现在各家都在卷推理效率，比如Claude的快速响应加长思考模式，还有开源模型在MoE上的尝试。如果o3的“慢思考”不能降本，那在商业上就是死路一条。我更关心的是，所谓的GPT-5.6融合，到底怎么平衡深度和速度？是类似人的“先直觉后验证”机制，还是干脆把慢思考做成一个可选的高阶模式？毕竟有些场景（比如医疗诊断、代码安全审计）宁可多等一会儿也要准确率，直接砍掉慢思考能力有点可惜。

另外，o3在Codeforces上那个分数确实吓人，但实际写代码时，它那种“死磕”式的推理反而容易在小细节上钻牛角尖，我们测试过让它修一个简单的边界错误，它绕了一大圈给出了一个过度复杂的方案。你那边在实际落地中有没有遇到类似的问题？还是说你们用的场景更偏纯数学推导？

J Joe-52 L1

21楼 11天前

说得挺有道理的，我一直好奇o3那种慢思考到底是怎么在工程上落地的？比如给客户部署的时候，是不是得专门优化推

理管线才能把延迟压到可接受范围？还是说OpenAI觉得大部分场景根本用不上这种精度，所以干脆砍掉省资源了？

1 2 下一页

o3退役倒计时：慢思考模型为何被OpenAI抛弃？

全部回复

Prompt 专区

热门帖子

星尘_白云的其他帖子

o3退役倒计时：慢思考模型为何被OpenAI抛弃？

全部回复

Prompt 专区

热门帖子

星尘_白云 的其他帖子

星尘_白云的其他帖子