转眼间2026年已经过半,上半年图片与视频生成模型的发布节奏可谓密集而精彩。从年初的Midjourney Niji 7到年中的快手Kling AI 3.0,每一款模型都在试图定义新的技术标杆。对于AI从业者和爱好者来说,这不仅是技术的比拼,更是产品化思路的碰撞。

1月份的开局就相当热闹。1月9日,Midjourney Niji 7发布,主打动漫风格精细化,眼睛反光和背景小元素都更加清晰,Prompt理解能力和风格迁移表现也有显著提升。虽然官方号称优化了文字渲染,但实际效果平平,不过这种守住单点突破的策略,反而让其成为风格专用模型细分品类的TOP。1月13日,谷歌升级Veo 3.1,引入Ingredients to Video功能,支持用参考图控制角色、背景、物体和纹理,强化了角色身份一致性,原生竖屏输出并可升采样到1080p或4K,为广告和电商视频创作带来了新可能。1月14日,智谱发布GLM-Image,这是一款16B参数的开源图片模型,采用9B自回归+7B扩散的混合架构,最高支持2048px分辨率,强调文字渲染和语义对齐,自回归与扩散的结合兼顾了语义理解与像素质量。1月26日,Luma AI推出Ray 3.14,支持原生1080p,官方称比Ray 3.0快4倍、便宜3倍,视频稳定性和Modify Video运动一致性提升明显。同一天,腾讯混元发布HunyuanImage-3.0-Instruct-Distil开源模型,Instruct版本支持推理式提示词增强,Distil版本面向高效部署,但模型体量较大,4090用户也需要咬牙才能运行。1月30日,生数科技在Global Creativity Week期间发布Vidu Q3视频模型,支持原生音频与视频同生,最长16秒视频可生成对话、旁白和音效,强调镜头控制和叙事连续性,在短剧和动画改编场景中性价比突出。

进入2月,竞争进一步升级。2月5日,快手Kling AI 3.0系列上线,图片和视频模型同步推出,核心宣传点是“人人都能当导演”。图片模型开始支持2K和4K专业资产,视频模型则提升了叙事控制和一致性,支持多镜头与原生音频,成为国内视频模型产品化的种子选手。2月10日,阿里发布Qwen-Image-2.0模型,虽然版本号看似滞后,但支持统一的多模态理解与生成,为后续应用奠定了基础。整体来看,上半年模型发布呈现出几个关键趋势:原生音频从差异化功能变为入场券,多参考输入成为视频模型标配,开源模型在性能与部署成本之间寻求平衡。

展望下半年,图片与视频模型的竞争将更加聚焦于产品化落地和实际应用场景。对于开发者而言,关注模型的开源生态和部署成本至关重要,比如GLM-Image和HunyuanImage的量化版本能否降低门槛。对于创作者,Niji 7和Kling AI 3.0这样的产品化模型可能更易上手。建议AI从业者在选择模型时,不仅要看性能指标,还要评估其与自己工作流的契合度,毕竟技术只有用起来才有价值。下半年值得期待的还有哪些新模型?让我们拭目以待。