开源版的 GPT Image 2，信息图、连续图文、本地部署全拿下

最近 GPT Image 2 火了之后，网上都是那些彻底以假乱真的 AI 生成图片。大模型在视觉这条路上越走越远，让人兴奋又让人敬畏。
而 GPT Image 2 在眼下的 AI 生图领域，几乎是没什么好争的。但如果说云端闭源收费的最好模型是 GPT Image 2，
那能部署在本地的，免费开源模型或许会是 SenseNova U1
。
由 SenseNova U1 生成
SenseNova U1 是商汤最新发布的一个开源的多模态模型，它的 Lite 系列 8B 和 A3B 参数版本，目前已经在 Hugging Face 和 GitHub 上开源。
从模型参数和选择开源的路线上，我们就能看到它和 GPT Image 2 是不太一样的方向。
APPSO 也提前拿到了测试资格，我们发现商汤这款新一代原生理解生成统一模型，就开源模型来说，已经做到了最好水平。
它带来了大模型行业首创的连续图文生成输出，就是用单一模型就能连贯输出图片和文字，这个新鲜很值得去试一试。
目前 SenseNova U1 开源模型的权重已经在 Hugging Face 和 GitHub 上开放下载。
GitHub：
https://github.com/OpenSenseNova/SenseNova-U1
Hugging Face：
https://huggingface.co/collections/sensenova/SenseNova-U1
带着图片的思考
我们可能遇到过这样的需求，想让 AI 解释一个复杂概念，同时配上示意图，而且图要跟着文字的逻辑走，解释到第几步，图里就画到第几步。
一般的模型可能会直接采用生成代码的方式来解决这个问题，像 Claude 使用的流式构图，或者一些 Vibe Coding 的网页，包含文字和配图。
但是要完全用一个模型同时在回复流里面，生成文字和图片，并且不借助外部工具的调用，基本上现有的模型做不到这一点。因为文字生成和图像生成在模型底层，往往是两件事。
SenseNova U1 的第一项特点，就是在单一模型上进行连续的图文创作输出。
我们试了一个场景，让他生成一份简单的绘本故事，讲述一只小熊历经四季的变化。
提示词：请创作一个图文绘本故事，主角是一只棕色的小熊，故事讲述它经历四季变化。
生成的连续图文不仅理解到位，有一定的故事性，而且能很好的保持一致性，同时图片的文字渲染全部准确，小熊也在冬天穿上了毛衣，戴上了帽子。
实测中发现用 SenseNova U1 来进行一些创意性的工作也非常有意思。
在官方的测试案例里，上传一张大头贴给模型，然后要求它设计几款不同的发型。可以看到，在生成连续图文的完整过程中，人物的一致性，以及结构、细节，SenseNova U1 都做到了精准保持。
提示词：帮我设计几款合适的发型，希望好看的同时比较有特色，然后帮我选一款最适合我的
还能直接让他设计一个游戏角色，展示从整体视觉基调、核心交互细节，再到环境叙事和性格刻画的逻辑迭代过程。
更有意思的是，基于时序性的回答，用 SenseNova U1 创作是再合适不过。我们要求他生成一颗牛油果变成一颗室内盆栽的过程，连续图文的形式很好地呈现了完整的生长过程。
提示词：怎么把一颗普通的牛油果种成一棵室内盆栽
一番测试下来，图片从来没有离开过文字的逻辑，推理的思路走到哪里，图片就跟到哪。
以前的图文结合或许是调用不同模型，和对应工具的写作，确保回复的内容里，图文是在说同一件事。现在这项写作从底层直接发生在模型内部，无论是工具还是软件，都不需要参与对齐的过程了，我们也只需要看到最后的结果。
对内容创作者、设计师和营销人员来说，SenseNova U1 的出现，开始解决了一个长久以来的痛点，即如何让 AI 边写边画，而且图文逻辑严丝合缝。
量大管饱的最强开源
确认了它的原生理解生成统一能力后，我们要看 SenseNova U1 能否在复杂信息图生成方面，达到开源模型的最好水平。
信息图是把一大段复杂的文字或数据，压缩成一张一眼能看懂的图。这件事其实比「画一张漂亮的图」难得多，需要理解内容，知道哪些是核心，哪些是辅助，信息之间的逻辑关系，以及文字渲染等，都是难题。
闭源的 GPT Image 2 在这方面已经做得很好了，我们在测试的时候一开始也没有抱着太大的希望，会比 GPT Image 2 还要更好。但 SenseNova U1 的表现，拿下开源 SOTA 的称号也确实是当之无愧。
我们先是就用一句话「用一张信息图解释一下 DeepSeek V4」，没有任何附加的提示词，看看它生成的信息图表现如何。
由 SenseNova U1 生成
能看得出来 SenseNova U1 有联网搜索到和 DeepSeek V4 相关的信息，像是原生多模态，还有万亿参数，以及百万的上下文 Token。
而除了简单的提示词，还可以直接发送一个链接给它，SenseNova U1 也有对应的网页抓取工具，提取网页内容，来进行信息图的生成。
这些知识科普类的信息图，SenseNova U1 的表现基本上都能驾驭。更简单的像是「一张什么是电子烟的 3D 拆解科普」，它也能很快生成。
由 SenseNova U1 生成
而如果提示词稍微详细一点，它也能完全照着提示词的内容，把这些文字准确渲染成可视化程度较高的信息图。
还有像是最近很火的武汉三鲜豆皮，直接告诉 SenseNova U1，生成一张三鲜豆皮完整制作流程的步骤图。
还有夏天来了，挑选不同的防晒霜，也是一张信息图，就能把 SPF 和 PA 值这些复杂的挑选参数讲清楚。
甚至是要它画一张 AI 大模型从训练到推理的工作原理图，适合完全不懂技术的人看懂；SenseNova U1 也能用轻松有趣的风格，简单的描述 AI 大模型的工作过程。
在其他场景的应用，像是营销、办公、设计参考和商业分析，我们都用不同的例子来测试了 SenseNova U1 的表现。
一般来说，营销场景对视觉风格的要求最高，也是最能看出模型有没有真正理解「用户想传递什么感受」的地方。一张好的营销图片，放在文章中间，甚至有可能直接被我们误认为是微信的文章内广告。
就像这张 SenseNova U1 生成的上海旅行信息图，不仅把地图描绘出来了，还列举了上海的特色。
在办公场景里，好看又要比准确和高效更重要。我们测试了它对信息处理的能力，把一份五页的会议纪要压缩成一张一屏能看完的总结图，要求逻辑清晰、重点突出，适合直接转发给没参会的同事。
复杂的信息之外，SenseNova U1 也能做到很好的视觉风格参考，给它一段品牌的调性描述，要求生成一张包含配色建议、排版建议、氛围关键词的风格参考图，结果居然也还不错。
在一些数据分析的任务上，我们也测试了 SenseNova U1 数据可视化的能力，用图表的方式来呈现更合理的信息图。
可以看到，SenseNova U1 在信息提炼这一步做得不错，它确实读懂了内容，知道什么重要什么次要。
但是在视觉表达上还有提升空间，有时候一些文字的渲染，还是会出现错误，对于需要快速出图、不想花时间在设计工具上反复调整的场景，已经完全够用。
下一个多模态模型的样子
实测完 SenseNova U1，我们发现

开源版的 GPT Image 2，信息图、连续图文、本地部署全拿下｜商汤SenseNova U1实测

讨论 (0 条)