讨论主题:
新一轮模型发布
参与嘉宾:
拾象
Best Ideas 社群
当 AI 开始加速 AI,模型公司的迭代周期正在被进一步压缩,模型公司开始进入“月更时代”。
过去的两周是全球模型的高密度发布期:Anthropic 发布 Opus 4.7,OpenAI 发布 Image 2.0 和 GPT-5.5,腾讯发布 Hy3 preview,沉寂了相当长一段时间的 DeepSeek 也终于带着 V4 回归。
在 DeepSeek V4 发布后,我们组织了一场
Best Ideas 讨论会
,和一线 AI researcher、开发者、创业者和投资人一起,复盘最近几款模型的真实使用体验,讨论 Opus 4.7、GPT-5.5、DeepSeek V4 背后的架构变化、能力边界和产业影响。这篇文章是对这场讨论的纪要整理。
What's Next
:接下来,我们会继续围绕真实的 AI 产品构建来组织讨论、观察这一轮智能竞赛。如果你
对模型边界有一手体感
,正在用这些模型做产品、重构 Workflow,对于「AI-native 工具链」有独特方法论。
欢迎
加入我们
下一场讨论
,分享你的独特判断。
Insight
01
新模型一线实测
Opus 4.7
1、
Opus 4.7 最明显的两个优点:
•
Long horizon task 的表现明显提升:给它一个比较难的任务可以推进得更长,而且不是靠无节制地烧 token,而是在高效的 token 配比下把任务推到极致。
•
多模态理解能力有明显进步,已经追平了目前主流的多模态模型,有可能是为了解锁设计类垂直场景。
2、
但 Opus 4.7 的缺点也很明显:文字表达能力退步了,不像 Opus 4.6 那样擅长抓重点、说话不绕弯。
3、
这个变化很可能是一次阶段性的 trade-off:Anthropic 做模型时习惯从 pre-training 层面做优化,每次配比变化都会对体验产生影响,加上 RL 的持续迭代和 tokenizer 的更换,可能带来了一些副作用。
4、
这种 trade-off 后可能也存在战略考量:如果不在 Opus 和 Sonnet 之间做明确的差异化,用户所有任务都用 Opus 跑,Anthropic 的算力会更加吃不消。现在的结果是用户自然形成了分工:做 coding 用 Opus 4.7,做文字表达切换到 Sonnet,这对 Anthropic 的资源分配反而是好事。
Dario
曾经
解释过 Haiku / Sonnet / Opus 这三档分类背后的逻辑,它不是简单的“低/中/高”三档智能,而是同一条“能力-速度-成本”曲线上的三种产品定位,本质上是能力、速度、成本的不同取舍。因此,具体某个模型的升级并不是所有能力同步 +1。
GPT-5.5
5、
GPT-5.5 提升比较明显,它不是像之前 5.3、5.4 那样纯靠 post-training 压榨 Codex 方向的能力,而是从 pre-training 层面做了实质性的改进。验证了 OpenAI 是可以做好 agentic 任务的。
6、
GPT-5.5 最明显的体感是速度变快。对 coding agent 来说,速度本身就是能力的一部分,因为很多代码任务不是一次性写对,而是在环境里不断试错、运行、修改。当模型足够快,整个试错链路也会变快,实际效率会被放大,不过到了美国上班时间后会明显变慢。
7、
总体来说,GPT-5.5 更像是 OpenAI 用来狙击 Opus 4.7 / Opus 4.6 的模型,而不是最终大招,也不是传言中的 Spud 模型。
8、
今天的 SOTA 还是 Opus 4.7,核心领先优势在于 brainstorm 和 planning 能力。很多开发者在做 plan mode 和 brainstorm 的时候仍然选择用 Opus,因为它对用户意图的理解、在方向探索上的深度和广度,仍然更胜一筹。
DeepSeek V4
9、
DeepSeek V4 在 agentic & coding 能力上是开源模型里明确的 SOTA,但和闭源模型的 SOTA 之间仍然有一定差距,这个差距大约在六个月以内。不过考虑到 DeepSeek 此前一直没有非常重视 agentic & coding,能临时追到这个程度已经很厉害了。
10、
DeepSeek V4 最大的卖点是极致的性价比。它在模型计算 FLOPs 优化、KV cache 压缩等方面做了非常极致的性能优化,如果后面再叠加国产算力,价格还有可能继续被打下来。这也是 DeepSeek 一直以来最有价值的地方:每当市场在某个阶段出现供需不平衡,它总能给出一个极致优化的局部最优解。
11、
DeepSeek 在过去很长一段时间里把 bet 下在了 long context 上,认为这是下一代范式的基础能力。但 long context 在智能提升的体感上不像 coding & agentic 那么明显和直观,如果 V4 能更早发布(比如去年底),借助 OpenClaw 带起来的这波 agentic 热潮,效果可能会更好。
12、
DeepSeek 使用华为芯片这件事,大多数人关注的是“国产替代”本身,但更值得关注的视角是:DeepSeek 又比别人早了半步。虽然适配华为芯片确实耽误了相当长的时间,但如果它最早把华为 950 跑通了,接下来就可能最早吃到华为产能的红利。
13、
DeepSeek 的历史意义不仅在于单个模型的性能,更在于它已经演化成中国为数不多能够独立探索新模型架构的厂商。每次 DeepSeek 的新架构出来,即使没有在能力上达到 SOTA,也会带动智谱、Kimi 等国内厂商跟进架构升级,连带降低整个行业的 inference 和训练成本。这次 DeepSeek 跑通了华为 950 集群的集成,只要其他厂商用类似架构,上 950 的门槛也会显著降低。
14、
Google 异常的安静可能不是因为落后了,而是因为觉得自己有把握。Google 的算力资源实在太充裕了,它的 de-risk 集群都比 OpenAI 和 Anthropic 最大的训练集群要大。从和 Google 内部团队的交流来看,他们似乎对自家模型比较有信心,并不急于在现在回应竞争对手的每一次发布。
Insight
02
模型吃掉一切脚手架
15、
模型把“脚手架”训进去的速度非常惊人。一个典型的开发体验是,在 GPT-5.4 发布后,在同样的需求下,它和前一天的 GPT-5.3 已经呈现出完全不同的行为模式:有朋友提出了一个 iOS App 的开发需求,Codex 没有停留在写代码或给步骤,而是主动识别到手机和电脑处在同一网络环境里,进一步判断可以直接把 App 部署到手机上,并挂上调试进程。随后,它会让用户直接打开 App 体验,自己在后台观察日志、记录用户操作行为、定位 bug,再修改代码、重新部署。
16、
过去这套闭环通常需要很多外部脚手架来帮模型组织,但现在模型已经自己成为了一个能跑完整开发流程的软件工程师。
17、
从实际使用体验来看,模型升级对使用不同 harness 框架的用户带来的影响也非常不同:
•
Opus
深度讨论新一轮模型发布:当智能进入月更时代 | Best Ideas
AITNT
20天前
7
35
本文由 Zyentor(智元界) 原创发布,转载请注明出处。
欢迎在 技术论坛 讨论本文相关内容