AI第一次从包工头,变成了建筑设计师。
以前我们混互联网论坛时,常说「无图无真相」,意思是你说的话我不信,有本事就把图或照片发上来。
之所以会这样,原因很简单,当时Photoshop门槛很高,会P图的人在论坛上凤毛麟角,大家默认图片的真实性远高于文字。
但过去这半年,AI生图领域的竞争异常激烈,很多人可能只是耳闻,却不清楚具体激烈程度。我来和你盘点一下。
首先是2025年8月,谷歌发布图像模型Nano Banana,一下子把AI生图的天花板抬高了一大截。
而在年底,面对谷歌Gemini 3+Nano Banana的全面攻势,山姆·奥特曼在公司内部拉响「红色警报」(Code Red),要求全员集中资源攻坚图像生成能力。
随后,他们快速推出了GPT-Image-1.5版本,虽然在一些跑分榜上领先,但在消费侧和用户侧都没激起什么水花,大家还是更青睐谷歌的模型。这是为什么呢?
每当新的AI生图模型发布,我都会第一时间上手试用。对比同期的王者Nano Banana,GPT-Image-1.5的质量没有多少提升,细节刻画落后一截,再加上谷歌坐拥庞大用户基数,数据飞轮转得更快。
著名产品大神俞军在《俞军产品方法论》中提出经典公式:
用户价值 = 新体验 - 旧体验 - 替换成本
这个公式深刻揭示了用户选择产品的底层逻辑,只有当新产品的新体验显著超过旧体验加替换成本的和,用户才愿意尝试或切换产品。放到这个例子里,就是GPT-Image-1.5的能力提升,不足以让用户放弃原有习惯迁移到新产品上。
但2026年4月21日,OpenAI的正式反攻来了——
GPT-Image-2

今天我想和你聊的不是它画得多好看,现在几家大模型都能做到这一点。我想说的是,
这次AI生图的底层逻辑彻底变了

过去这些年,所有AI生图模型的工作方式本质都一样:你写一段描述,越详细越好,模型照着描述渲染图片。你是甲方,AI是执行者,描述越精确,出图效果越好。
所以整个行业都在卷「提示词工程」,谁的指令写得好,谁的图就好看。这也催生了大量生图提示词网站,我自己就收藏了很多。
早前用Midjourney时,我每天都会找到几张别人做的很厉害的AI图片,然后抄他们的提示词,忍不住想「他怎么这么会写提示词,怎么知道这么多冷僻的艺术单词?」
而Midjourney退位后,谷歌的Nano Banana模型成了这个逻辑的极致。它是个非常强的设计师,你说什么它画什么,又快又好。
但GPT-Image-2给我的感觉完全不同:
它不再是简单的设计师,更像一个设计总监带着一个小团队

我举个细节说明。用它生图时,你的屏幕上会出现一串状态提示:正在创建图片→先打个草稿→生成初稿中→搭好场景→打磨细节→收尾中→最后润色中→最后微调一下。
看到这串流程,你会想到什么?我当时的第一反应是,这不是一个人在干活,而是有人先出草图,有人搭场景,有人打磨细节,最后还有人做整体润色。就像以前你对面是一个设计师,现在是一整个设计部门,由设计总监带队。
你可能会说,这只是界面提示,做做样子而已。但这个「样子」背后,是AI真实的能力变化。我做了一系列实测,分享三个发现,一个比一个令人震撼。
01 基本功补上了
先说文字渲染,这是AI生图出了名的老毛病,在行业里是公开的笑话。
2024年,TechCrunch的一位科技记者让AI画一张墨西哥餐厅的菜单,出来的结果里单词大多是乱码,这张截图当时在X上疯传。
▲ 2024年DALL-E 3生成的乱码菜单
而今年,同一位记者用同一段提示词测试GPT-Image-2,出来的菜单可以直接拿到餐厅使用,拼写无误,排版合理。
记者唯一的吐槽是:「酸橘汁腌鱼(ceviche verde)13.50美元,便宜得让我怀疑鱼的质量。」
▲ 2026年GPT-Image-2生成的完整菜单
这不是「进步了一点」,而是一次跨越
。而且它不只是支持英文,中文、日文、韩文都能完美适配。这件事我要特别展开说。
以前我用AI生图,流程非常割裂。AI能帮我生成好看的背景图,但上面不能加字,中文字一加就乱码、错笔画、多偏旁,惨不忍睹。所以实际工作流程是让AI画背景,再自己手工加文字。很多人也默认这个问题难解决,都是自己再上手改。
但这个版本,
搞定了中文渲染问题
。为什么原本以为很难的中文字问题能顺利解决?在了解了这个模型的研发团队后,我发现一个有趣的细节。
研究负责人陈博远,MIT电子工程与计算机科学博士,本科伯克利,博士期间辅修哲学。官方博客里,展示了他直接用模型生成的一整页全中文彩色漫画,讲的就是他在OpenAI做中文文本渲染优化的故事。
漫画分五排,从他对着电脑埋头干活,到为家乡无锡生成多语言海报,到团队集体兴奋,再到收到奥特曼的祝贺短信。最后一排是重头戏:奥特曼发来一张图,上面写着「稳稳地接住你」,他当场破防。
你看,这张漫画本身,就是对中文文字渲染能力最好的证明。
▲ 用GPT-Image-2生成的全中文彩色漫画
而整个图像系列的团队负责人加布里埃尔·吴(Gabriel Goh),也在社交媒体上晒出了一张团队成员的AI全家福。评论区直接有网友感叹:怎么全是亚洲人?
▲ OpenAI图像生成团队AI全家福
我觉得正是核心团队里有深厚的中文背景,所以这个版本的中文渲染能力有质的飞跃。因为做这件事的人,自己就是中文使用者,知道中文排版应该长什么样。
对我们中文内容创作者来说,这才算真正开门。
02 它会替你思考,不只是听指令
比基本功更重要的,是第二个发现。
我做了个测试,把一篇几千字的《快刀广播站》文稿扔进去,没写任何复杂提示词,只说了一句话:「帮我生成这篇文章的信息图」。
结果出来的长图逻辑清晰、层级分明,关键概念都被准确提炼出来。它没有问我「你想要什么风格」,也没有问「重点是什么」,而是
自己读完文稿,自己判断,自己出图

▲ 只扔了一段文稿,AI自动生成的信息图
还有一个更极端的例子。测试书的封面设计时,我只说了句「一本书的封面,体现千行百业都在用AI」,没多说任何信息。
它自己设计了书名和副标题,自己构思了封面的意境,出来的结果完全没有违和感,就像真正读过这本书的设计师做的。
▲ 只给了一句话,AI自主完成的封面
而在官方演示里,OpenAI研究员杨宇光(Yuguang Yang)上传了一份70页GPT-3的PDF文件,要求直接生成一个7页的PPT。AI能自行读懂文件内容,完成PPT,有排版设计、图表信息完整——不是随便配张图,而是真正读懂后再创作。
▲ 上传70页PDF,AI自动生成7页完整PPT
这就是设计师和设计总监的区别。
设计师照你的需求干活,你说什么他画什么;设计总监会先了解你的业务、审美和想要的感觉,再给出方案。你不需要事先想好所有细节,因为他会替你考虑。
03 生图一致性提升
第三个发现,证明这不是单点突破,而是
系统性能力提升

以前用AI生成多张图片,最大的痛点是保持一致性:生成一组产品图,风格前后对不上;想做连载漫画,主角长相每一格都在变。要拼成一套连贯内容,需要大量手工修改。
这次GPT-Image-2
一次请求最多能生成8张连贯图
,人物外貌、服装、风格、光影,跨图保持一致。
在发布会上,研究员宋基桓上传了自己的照片,