商汤U1图文增强版：多页创作角色不跑偏

商汤科技近日为日日新SenseNova U1系列增添新成员——U1-8B-MoT-Interleaved图文交错增强版模型。这款模型并非简单追求单张图像的高质量，而是直击多模态AI在长内容创作中的核心痛点：角色形象飘移、画风断裂、图文脱节。它让AI从生成孤立的“单张盲盒”跃升为可以持续输出风格统一、叙事连贯、图文高度对应的完整内容序列，为绘本、故事书、多页PPT、图文教程等场景带来了实质性突破。该模型的核心升级体现在四个方面。首先是叙事一致性与角色连贯性的大幅提升，故事线被严格遵循，人物形象从第一页到最后一页保持高度一致。其次是图文对应关系的增强，通过专项训练，模型能更准确地呈现文本描述的复杂场景、动态动作与空间关系，告别“图文脱节”。第三是针对人物结构、文字渲染、页面排版等高频区域进行定向优化，显著降低了视觉瑕疵（Artifact）。最后，新版本首次支持多页PPT自动生成，模型能智能提取要点并完成排版设计与文字渲染。实测案例直观展示了增强版的能力。在教程类内容生成中，原版模型生成的搅拌步骤配图出现了违背物理逻辑的“星云漩涡”，而增强版不仅图像真实自然，动作也完全符合物理逻辑。在故事书生成场景中，原版未能遵循“角色突然失踪”的关键情节，且角色面部出现形变；增强版则精准呈现反转情节，角色形象卡通化且稳定。在绘画过程生成中，增强版完美还原了纸张的纸质肌理，手绘艺术质感逼真。最具亮点的PPT生成场景，增强版能生成风格高度统一的“赛博朋克”主题多页PPT，排版布局稳定，文字渲染精准，且通过“图文交错思维链”逐步呈现设计逻辑。从单张图像的惊艳到多页连续创作的一气呵成，SenseNova U1图文交错增强版标志着多模态AI在连续内容创作领域进入了高实用性、高稳定性的新阶段。对于AI从业者和创作者而言，这意味着无论是制作步骤严密的图文指南，还是保持角色和情节连贯的儿童绘本，亦或是追求视觉排版的商业PPT，都可以借助该模型大幅提升效率与质量。建议关注多模态生成落地的团队，可以基于此模型探索自动化内容生产管线，特别是在教育、出版和营销领域，其连贯性和一致性将显著降低人工修正成本。

商汤U1图文增强版：多页创作角色不跑偏

相关推荐

Codex自定任务，程序员只剩给意图

为啥 Codex 还不推出类似 Codex Design 的产品？

2026年的毕业生们，正在花钱向AI证明自己是人类。

Codex自定任务，程序员只剩给意图

为啥 Codex 还不推出类似 Codex Design 的产品？

📖 更多原创