实测ChatGPT最新生图模型三大发现

AI第一次从包工头，变成了建筑设计师。
以前我们混互联网论坛时，常说「无图无真相」，意思是你说的话我不信，有本事就把图或照片发上来。
之所以会这样，原因很简单，当时Photoshop门槛很高，会P图的人在论坛上凤毛麟角，大家默认图片的真实性远高于文字。
但过去这半年，AI生图领域的竞争异常激烈，很多人可能只是耳闻，却不清楚具体激烈程度。我来和你盘点一下。
首先是2025年8月，谷歌发布图像模型Nano Banana，一下子把AI生图的天花板抬高了一大截。
而在年底，面对谷歌Gemini 3+Nano Banana的全面攻势，山姆·奥特曼在公司内部拉响「红色警报」（Code Red），要求全员集中资源攻坚图像生成能力。
随后，他们快速推出了GPT-Image-1.5版本，虽然在一些跑分榜上领先，但在消费侧和用户侧都没激起什么水花，大家还是更青睐谷歌的模型。这是为什么呢？
每当新的AI生图模型发布，我都会第一时间上手试用。对比同期的王者Nano Banana，GPT-Image-1.5的质量没有多少提升，细节刻画落后一截，再加上谷歌坐拥庞大用户基数，数据飞轮转得更快。
著名产品大神俞军在《俞军产品方法论》中提出经典公式：
用户价值 = 新体验 - 旧体验 - 替换成本
这个公式深刻揭示了用户选择产品的底层逻辑，只有当新产品的新体验显著超过旧体验加替换成本的和，用户才愿意尝试或切换产品。放到这个例子里，就是GPT-Image-1.5的能力提升，不足以让用户放弃原有习惯迁移到新产品上。
但2026年4月21日，OpenAI的正式反攻来了——
GPT-Image-2
。
今天我想和你聊的不是它画得多好看，现在几家大模型都能做到这一点。我想说的是，
这次AI生图的底层逻辑彻底变了
。
过去这些年，所有AI生图模型的工作方式本质都一样：你写一段描述，越详细越好，模型照着描述渲染图片。你是甲方，AI是执行者，描述越精确，出图效果越好。
所以整个行业都在卷「提示词工程」，谁的指令写得好，谁的图就好看。这也催生了大量生图提示词网站，我自己就收藏了很多。
早前用Midjourney时，我每天都会找到几张别人做的很厉害的AI图片，然后抄他们的提示词，忍不住想「他怎么这么会写提示词，怎么知道这么多冷僻的艺术单词？」
而Midjourney退位后，谷歌的Nano Banana模型成了这个逻辑的极致。它是个非常强的设计师，你说什么它画什么，又快又好。
但GPT-Image-2给我的感觉完全不同：
它不再是简单的设计师，更像一个设计总监带着一个小团队
。
我举个细节说明。用它生图时，你的屏幕上会出现一串状态提示：正在创建图片→先打个草稿→生成初稿中→搭好场景→打磨细节→收尾中→最后润色中→最后微调一下。
看到这串流程，你会想到什么？我当时的第一反应是，这不是一个人在干活，而是有人先出草图，有人搭场景，有人打磨细节，最后还有人做整体润色。就像以前你对面是一个设计师，现在是一整个设计部门，由设计总监带队。
你可能会说，这只是界面提示，做做样子而已。但这个「样子」背后，是AI真实的能力变化。我做了一系列实测，分享三个发现，一个比一个令人震撼。
01 基本功补上了
先说文字渲染，这是AI生图出了名的老毛病，在行业里是公开的笑话。
2024年，TechCrunch的一位科技记者让AI画一张墨西哥餐厅的菜单，出来的结果里单词大多是乱码，这张截图当时在X上疯传。
▲ 2024年DALL-E 3生成的乱码菜单
而今年，同一位记者用同一段提示词测试GPT-Image-2，出来的菜单可以直接拿到餐厅使用，拼写无误，排版合理。
记者唯一的吐槽是：「酸橘汁腌鱼（ceviche verde）13.50美元，便宜得让我怀疑鱼的质量。」
▲ 2026年GPT-Image-2生成的完整菜单
这不是「进步了一点」，而是一次跨越
。而且它不只是支持英文，中文、日文、韩文都能完美适配。这件事我要特别展开说。
以前我用AI生图，流程非常割裂。AI能帮我生成好看的背景图，但上面不能加字，中文字一加就乱码、错笔画、多偏旁，惨不忍睹。所以实际工作流程是让AI画背景，再自己手工加文字。很多人也默认这个问题难解决，都是自己再上手改。
但这个版本，
搞定了中文渲染问题
。为什么原本以为很难的中文字问题能顺利解决？在了解了这个模型的研发团队后，我发现一个有趣的细节。
研究负责人陈博远，MIT电子工程与计算机科学博士，本科伯克利，博士期间辅修哲学。官方博客里，展示了他直接用模型生成的一整页全中文彩色漫画，讲的就是他在OpenAI做中文文本渲染优化的故事。
漫画分五排，从他对着电脑埋头干活，到为家乡无锡生成多语言海报，到团队集体兴奋，再到收到奥特曼的祝贺短信。最后一排是重头戏：奥特曼发来一张图，上面写着「稳稳地接住你」，他当场破防。
你看，这张漫画本身，就是对中文文字渲染能力最好的证明。
▲ 用GPT-Image-2生成的全中文彩色漫画
而整个图像系列的团队负责人加布里埃尔·吴（Gabriel Goh），也在社交媒体上晒出了一张团队成员的AI全家福。评论区直接有网友感叹：怎么全是亚洲人？
▲ OpenAI图像生成团队AI全家福
我觉得正是核心团队里有深厚的中文背景，所以这个版本的中文渲染能力有质的飞跃。因为做这件事的人，自己就是中文使用者，知道中文排版应该长什么样。
对我们中文内容创作者来说，这才算真正开门。
02 它会替你思考，不只是听指令
比基本功更重要的，是第二个发现。
我做了个测试，把一篇几千字的《快刀广播站》文稿扔进去，没写任何复杂提示词，只说了一句话：「帮我生成这篇文章的信息图」。
结果出来的长图逻辑清晰、层级分明，关键概念都被准确提炼出来。它没有问我「你想要什么风格」，也没有问「重点是什么」，而是
自己读完文稿，自己判断，自己出图
。
▲ 只扔了一段文稿，AI自动生成的信息图
还有一个更极端的例子。测试书的封面设计时，我只说了句「一本书的封面，体现千行百业都在用AI」，没多说任何信息。
它自己设计了书名和副标题，自己构思了封面的意境，出来的结果完全没有违和感，就像真正读过这本书的设计师做的。
▲ 只给了一句话，AI自主完成的封面
而在官方演示里，OpenAI研究员杨宇光（Yuguang Yang）上传了一份70页GPT-3的PDF文件，要求直接生成一个7页的PPT。AI能自行读懂文件内容，完成PPT，有排版设计、图表信息完整——不是随便配张图，而是真正读懂后再创作。
▲ 上传70页PDF，AI自动生成7页完整PPT
这就是设计师和设计总监的区别。
设计师照你的需求干活，你说什么他画什么；设计总监会先了解你的业务、审美和想要的感觉，再给出方案。你不需要事先想好所有细节，因为他会替你考虑。
03 生图一致性提升
第三个发现，证明这不是单点突破，而是
系统性能力提升
。
以前用AI生成多张图片，最大的痛点是保持一致性：生成一组产品图，风格前后对不上；想做连载漫画，主角长相每一格都在变。要拼成一套连贯内容，需要大量手工修改。
这次GPT-Image-2
一次请求最多能生成8张连贯图
，人物外貌、服装、风格、光影，跨图保持一致。
在发布会上，研究员宋基桓上传了自己的照片，

实测ChatGPT最新生图模型三大发现

讨论 (0 条)