深度讨论新一轮模型发布：当智能进入月更时代

讨论主题：
新一轮模型发布
参与嘉宾：
拾象
Best Ideas 社群
当 AI 开始加速 AI，模型公司的迭代周期正在被进一步压缩，模型公司开始进入“月更时代”。
过去的两周是全球模型的高密度发布期：Anthropic 发布 Opus 4.7，OpenAI 发布 Image 2.0 和 GPT-5.5，腾讯发布 Hy3 preview，沉寂了相当长一段时间的 DeepSeek 也终于带着 V4 回归。
在 DeepSeek V4 发布后，我们组织了一场
Best Ideas 讨论会
，和一线 AI researcher、开发者、创业者和投资人一起，复盘最近几款模型的真实使用体验，讨论 Opus 4.7、GPT-5.5、DeepSeek V4 背后的架构变化、能力边界和产业影响。这篇文章是对这场讨论的纪要整理。
What's Next
：接下来，我们会继续围绕真实的 AI 产品构建来组织讨论、观察这一轮智能竞赛。如果你
对模型边界有一手体感
，正在用这些模型做产品、重构 Workflow，对于「AI-native 工具链」有独特方法论。
欢迎
加入我们
下一场讨论
，分享你的独特判断。
Insight
01
新模型一线实测
Opus 4.7
1、
Opus 4.7 最明显的两个优点：
•
Long horizon task 的表现明显提升：给它一个比较难的任务可以推进得更长，而且不是靠无节制地烧 token，而是在高效的 token 配比下把任务推到极致。
•
多模态理解能力有明显进步，已经追平了目前主流的多模态模型，有可能是为了解锁设计类垂直场景。
2、
但 Opus 4.7 的缺点也很明显：文字表达能力退步了，不像 Opus 4.6 那样擅长抓重点、说话不绕弯。
3、
这个变化很可能是一次阶段性的 trade-off：Anthropic 做模型时习惯从 pre-training 层面做优化，每次配比变化都会对体验产生影响，加上 RL 的持续迭代和 tokenizer 的更换，可能带来了一些副作用。
4、
这种 trade-off 后可能也存在战略考量：如果不在 Opus 和 Sonnet 之间做明确的差异化，用户所有任务都用 Opus 跑，Anthropic 的算力会更加吃不消。现在的结果是用户自然形成了分工：做 coding 用 Opus 4.7，做文字表达切换到 Sonnet，这对 Anthropic 的资源分配反而是好事。
Dario
曾经
解释过 Haiku / Sonnet / Opus 这三档分类背后的逻辑，它不是简单的“低/中/高”三档智能，而是同一条“能力-速度-成本”曲线上的三种产品定位，本质上是能力、速度、成本的不同取舍。因此，具体某个模型的升级并不是所有能力同步 +1。
GPT-5.5
5、
GPT-5.5 提升比较明显，它不是像之前 5.3、5.4 那样纯靠 post-training 压榨 Codex 方向的能力，而是从 pre-training 层面做了实质性的改进。验证了 OpenAI 是可以做好 agentic 任务的。
6、
GPT-5.5 最明显的体感是速度变快。对 coding agent 来说，速度本身就是能力的一部分，因为很多代码任务不是一次性写对，而是在环境里不断试错、运行、修改。当模型足够快，整个试错链路也会变快，实际效率会被放大，不过到了美国上班时间后会明显变慢。
7、
总体来说，GPT-5.5 更像是 OpenAI 用来狙击 Opus 4.7 / Opus 4.6 的模型，而不是最终大招，也不是传言中的 Spud 模型。
8、
今天的 SOTA 还是 Opus 4.7，核心领先优势在于 brainstorm 和 planning 能力。很多开发者在做 plan mode 和 brainstorm 的时候仍然选择用 Opus，因为它对用户意图的理解、在方向探索上的深度和广度，仍然更胜一筹。
DeepSeek V4
9、
DeepSeek V4 在 agentic & coding 能力上是开源模型里明确的 SOTA，但和闭源模型的 SOTA 之间仍然有一定差距，这个差距大约在六个月以内。不过考虑到 DeepSeek 此前一直没有非常重视 agentic & coding，能临时追到这个程度已经很厉害了。
10、
DeepSeek V4 最大的卖点是极致的性价比。它在模型计算 FLOPs 优化、KV cache 压缩等方面做了非常极致的性能优化，如果后面再叠加国产算力，价格还有可能继续被打下来。这也是 DeepSeek 一直以来最有价值的地方：每当市场在某个阶段出现供需不平衡，它总能给出一个极致优化的局部最优解。
11、
DeepSeek 在过去很长一段时间里把 bet 下在了 long context 上，认为这是下一代范式的基础能力。但 long context 在智能提升的体感上不像 coding & agentic 那么明显和直观，如果 V4 能更早发布（比如去年底），借助 OpenClaw 带起来的这波 agentic 热潮，效果可能会更好。
12、
DeepSeek 使用华为芯片这件事，大多数人关注的是“国产替代”本身，但更值得关注的视角是：DeepSeek 又比别人早了半步。虽然适配华为芯片确实耽误了相当长的时间，但如果它最早把华为 950 跑通了，接下来就可能最早吃到华为产能的红利。
13、
DeepSeek 的历史意义不仅在于单个模型的性能，更在于它已经演化成中国为数不多能够独立探索新模型架构的厂商。每次 DeepSeek 的新架构出来，即使没有在能力上达到 SOTA，也会带动智谱、Kimi 等国内厂商跟进架构升级，连带降低整个行业的 inference 和训练成本。这次 DeepSeek 跑通了华为 950 集群的集成，只要其他厂商用类似架构，上 950 的门槛也会显著降低。
14、
Google 异常的安静可能不是因为落后了，而是因为觉得自己有把握。Google 的算力资源实在太充裕了，它的 de-risk 集群都比 OpenAI 和 Anthropic 最大的训练集群要大。从和 Google 内部团队的交流来看，他们似乎对自家模型比较有信心，并不急于在现在回应竞争对手的每一次发布。
Insight
02
模型吃掉一切脚手架
15、
模型把“脚手架”训进去的速度非常惊人。一个典型的开发体验是，在 GPT-5.4 发布后，在同样的需求下，它和前一天的 GPT-5.3 已经呈现出完全不同的行为模式：有朋友提出了一个 iOS App 的开发需求，Codex 没有停留在写代码或给步骤，而是主动识别到手机和电脑处在同一网络环境里，进一步判断可以直接把 App 部署到手机上，并挂上调试进程。随后，它会让用户直接打开 App 体验，自己在后台观察日志、记录用户操作行为、定位 bug，再修改代码、重新部署。
16、
过去这套闭环通常需要很多外部脚手架来帮模型组织，但现在模型已经自己成为了一个能跑完整开发流程的软件工程师。
17、
从实际使用体验来看，模型升级对使用不同 harness 框架的用户带来的影响也非常不同：
•
Opus

深度讨论新一轮模型发布：当智能进入月更时代 | Best Ideas