2026年4月24日,这是属于全球AI开发者的「疯狂星期五」,也是科技史上注定被铭记的一天。
凌晨时分,OpenAI的GPT-5.5如约空降,试图以绝对的参数再次定义智能边界。
然而,就在大洋彼岸的余震还未平息时,那个曾经数次单挑闭源巨头的国产「价格屠夫」与「效率天才」——DeepSeek,带着全新的V4系列来正面硬刚了!
当GPT-5.5还在试图用更昂贵的算力堆砌未来时,DeepSeek-V4已经用1M超长上下文、比肩顶级闭源模型的Agent能力,以及仅为前代10%的KV缓存占用,直接把大模型推向了「平民化智能」的极境。
一边是科技春晚般的华丽登场,一边是开源领域近乎「掀桌子」的绝地反击。我们见证了一场精彩的「暴力美学」与「算法巧思」的巅峰对决。
通往AGI的赛道,瞬间被这两大巨头缩短了不少。
接下来,中国开源之光DeepSeek-V4和GPT-5.5,要来一场真刀实枪的实测大PK了。
GPT-5.5和DeepSeek-V4巅峰对决
第一题,一道可以肉眼判断模型差异的电梯谜题,测的是「真假话+身份推理」。
有四个人 A、B、C、D,其中只有一个人偷了宝石。
他们分别说了下面四句话: A:不是我偷的。 B:是C偷的。 C:是D偷的。 D:B在说谎。
已知: 1. 四句话中恰好有两句是真的。 2. 小偷说的话一定是假话。 3. 非小偷不一定说真话,也可能说假话。
请问:谁偷了宝石?
这道题看似简单,但其实,在给出的条件下,B和C都满足。因此,这是一道故意设计的「陷阱题」:如果模型直接给出唯一答案C,说明它没有认真验证唯一性。
真正想测的是,模型会不会发现题目本身不充分。
更强模型应该回答:无法唯一确定,小偷可能是B或C。题目条件不足。
这道题给GPT-5.5后,它成功发现了陷阱。
把这道题给DeepSeek-V4后,一个直观感受就是:它的思考过程,真的十分长长长长长。
GPT-5.5十几秒就出了答案,四分钟了DeepSeek-V4还在跑。
不过好在,V4最终也给出了正确答案。结果是好的,就是过程比较慢。
第二题,我们用数字竞赛题,来测试CoT的思考上限。重点比拼两个模型的数学逻辑推理和思考模式效能。
既然DeepSeek-V4宣称在STEM和竞赛型代码上比肩顶级闭源模型,那我们就看看V4和GPT-5.5在面对人类智力天花板题目时,谁的推导过程更严密,谁会出现更多幻觉。
我们选了去年国际奥数决赛的一道真题:
Alice和Bob正在玩一个名为inekoalaty的双人游戏,这个游戏的规则依赖于一个双方都知道的正实数λ。
在游戏的第n轮(从n=1开始),会发生以下情况:
• 如果n是奇数,Alice选择一个非负实数xₙ,使得x₁ + x₂ + ⋯ + xₙ的总和不超过λn。
• 如果n是偶数,Bob选择一个非负实数xₙ,使得x₁² + x₂² + ⋯ + xₙ²的总和不超过n。
如果一个玩家无法选择一个合适的xₙ,游戏结束,另一个玩家获胜。如果游戏无限进行下去,没有玩家获胜。所有选定的数字对两个玩家都是已知的。
需要确定的是,哪些λ的值能确保Alice有获胜策略,以及哪些λ的值能确保Bob有获胜策略。
原题和答案:https://web.evanchen.cc/exams/IMO-2025-notes.pdf
在进阶思考深度下,GPT-5.5得到了正确答案:
全程耗时2分钟51秒,思路清晰,输出格式也很漂亮。
在专家模式下,开启思考模式,同样的题目输入DeepSeek──
DeepSeek在思考过程结束前,没有给出明确的输出。
点击继续后,DeepSeek也发现了答案的线索:
最后,DeepSeek也成功证明了这道IMO决赛真题。
可以看出,DeepSeek推理能力、思考深度的确进步明显。
接下来,我们考验一下两个模型的可视化能力。
生成一个HTML网页介绍人类的起源和生物的进化,要图文并茂,好理解。
DeepSeek这次效果更佳,GPT-5.5生成格式有些问题。
接下来,要求两个模型开发一个游戏网站,测试它们在动态图形、3D空间交互、碰撞检测和整体游戏架构方面的能力。
通过最终呈现,可以清晰对比两个模型在2D细腻特效与3D场景构建、光照与实时粒子系统方面的代码生成能力、架构合理性以及视觉审美水平。
跟上面一样,GPT-5.5很快完成了这个任务,在预览中呈现了网站效果。
DeepSeek-V4的思考时间不长,最终效果不如GPT-5.5,这一轮V4完败。
GPT-5.5:更像个人了
接下来,我们还搜罗了一波AI大V和开发者们对GPT-5.5的实测。
在今天发布之前,多位早期测试者已经用了两周。他们的结论高度一致:在编程、推理、长任务三个维度上,GPT-5.5全面登顶。
但真正让人坐不住的不是它更聪明了,是它更「像个人」了。
更贵的单价,反而更省钱;更强的能力,反而更会聊天;更高的自主性,反而更听话。这一次,OpenAI拆掉了旧时代的发动机,直接给模型装上了「灵魂」。
Codex,直接淘汰「AI辅助编程」!
可以说,GPT-5.5的Codex模式,直接把「AI辅助编程」这个词淘汰了。
一位测试者扔给它一份完整的PRD文档,只说了一个词:go。
几个小时后,GPT-5.5就独立完成了整个项目构建。
更关键的,是GPT-5.5的工作方式。
它并不是写完代码等人审,而是自己形成了闭环——构建,视觉检查,发现问题,再迭代。
这种自主性,在其他模型上从未见过。
OpenAI研究员Noam Brown的反馈,相信大家都已经看过了。
用他的话说,「有了GPT-5.5,我的IC效率比以往任何时候都高。我现在可以像专业人士一样编写CUDA kernels,可以依靠它来运行我的研究实验。」
后端开发、复杂Bug定位、大型代码库理解,GPT-5.5在这些维度全面领先。
有测试者专门让它用Svelte写了一个自定义虚拟滚动实现,完美调用了所有bind原语。
他的评价是:「我见过AI写出的最好的代码,来自这个模型。」
在世界上最难的电子表格任务上,GPT-5.5实现全新SOTA:速度最快、效率最高。
更狠的是,GPT-5.5的持续研究能力,已有迹象表明AI已经能胜任研究合作者——
人类研究人员只需要提出构想,全程无需写一行代码,GPT-5.5全部自主完成。
甚至可以自主运行31个小时!
这意味着,AI正从「助理」变为「雇佣兵」。你不需要告诉它怎么走,你只需要给它一个终点。
不过短板同样存在。
前端设计仍然不如Opus,响应速度不如Opus 4.6 Fast。
复杂布局有时候直接甩一张img了事,SVG硬编码把自己绕晕。
而且变得过度谨慎——动不动就问你问题,prompt稍有不慎就会触发「疯狂写单元测试」模式。
总结就是:能力很强,但需要驯服。
沃顿商学院的教授Ethan Mollick测试了GPT-5.5好几周,得出结论:目前,GPT-5.5 Pro就是解决复杂问题的最佳模型。
更贵的模型,怎么反而更便宜
GPT-5.5的定价比5.4更高。
纸面上看不是好消息。
但一位深度测试两周的开发者给出了关键数据:达到GPT-5.4同等智能水平,GPT-5.5消耗的Token显著更少。综合算下来,整体运行成本反而更低。
「这可能比大多
DeepSeek-V4和GPT-5.5第一波实测对决,结果出人意料!
AITNT
2026-04-25
7
0
本文由 Zyentor(智元界) 原创发布,转载请注明出处。
欢迎在 技术论坛 讨论本文相关内容