专门为短剧、动漫和影视内容创作训练的垂直模型,长什么样?
2026 年春节档,一个数据很震撼:据 Monnfox 统计,AI 漫剧播放量突破了 25 亿次,占短剧大盘近 30%。
去年这个时候,AI 漫剧还是「看个新鲜」的东西,大部分人刷到了会觉得画面有点怪,动作有点僵,没什么意思,看两秒就划走了。
但今年,
整个 AI 漫剧市场的规模、日均上新数量、用户规模都开始大幅增加,赛道已经过了「能不能做」的阶段。
因此,一个很现实的问题也就随之出现了。
通用视频模型虽然越来越强,但放到漫剧和短剧的具体场景里,还是有些短板存在。这些问题,很难靠「把通用模型继续做大」来解决。它们更多是因为,通用模型在训练的时候,就没有针对这些场景做过专门的优化。
也正是在这个背景下,
2026 年 4 月 8 日,爱诗科技(PixVerse)发布了 C1,一个定位很明确的模型:全球首个影视行业大模型,专门为短剧、动漫和影视内容创作训练的垂直模型。
接下来,先从 PixVerse 最近密集发布的模型说起,聊聊 C1 在它们产品线里到底是什么位置,之后分享我们的实测。
PixVerse 这半年,发了不少模型
如果你关注 AI 视频这个领域,会发现 PixVerse 从 2025 年下半年开始,发布节奏快得有点密集。
先简单过一遍。
2025 年下半年,V5 系列连着迭代了好几个版本。V5 本身是通用能力的一次大升级,动效、高清画质、角色一致性、提示词遵循都拉上来了,我们在
《
PixVerse V5 突袭上线,我们在「拍我AI」上第一时间深度实测
》
中详细体验过。V5 Fast 把 1080P 视频的生成时间压到了 30 秒以内。
到了 12 月,我们在《
实测拍我AI V5.5:发现AI视频创作不需要复杂“工作流”了
》一文中,发现 V5.5 做了一个比较关键的事情,第一次支持分镜加音频的一键生成,算是从「生成一条视频」走向了「讲一个故事」。
2026 年 1 月,R1 来了。定位是全球首个通用实时世界模型,简单说就是视频生成从「等结果」变成了「实时互动」,用户可以在画面生成的过程中改变方向。这跟 V 系列的逻辑完全不一样,走的是交互式体验。
2 月,V5.6 在 Artificial Analysis 的 i2v 和 t2v 两个榜单上,都拿到了全球第二,仅次于 Seedance 2.0。
然后 3 月 30 日,发了 V6 模型。
V6 是通用旗舰的又一次大升级,角色真实感、复杂运动、物理模拟、音视频同步全面拉满,最长支持 15 秒生成。
之后的 C1 ,则是另一个方向。
它跟 V6 没有衍生关系,也不是在 V6 基础上微调出来的。
C1 是爱诗科技独立训练的垂直行业大模型,针对打斗动作、术法特效、多宫格分镜这些场景做了专项优化。
这也是爱诗科技第一次针对某个具体行业,单独训了一个模型。
实测 C1
下面是我们用 C1 做的几个实测,覆盖了它最核心的几个能力。每个 Case 都附上了实际使用的 Prompt。
Case 1|多宫格分镜直出
多宫格分镜直出,是这次 C1 的一个核心能力。
你可以直接丢一张九宫格的 AI 漫剧图进去。
模型会自己去读里面的画面关系,理解每一格在讲什么,然后把这些分镜串起来,自动生成一条完整的视频。基本不需要你再去手动拆镜头或者补逻辑。
操作也很简单。输入框里选 C1 模型就行。分辨率最高支持到 1080P,时长最长 15 秒。音频是一起生成的,不用额外处理。整体就是一套从图到视频的直出流程。
我试了一张古装玄幻风的 9 宫格分镜图,每一格分别是:远景山门、两人对峙、拔剑出手、剑气碰撞、冲击波扩散、角色后退、天空裂开、光柱冲天、最后定格。
对了,
这一整套图也可以直接在 PixVerse 里生成,里面同样提供 Nano Banana Pro 模型。
然后你可以直接把这张图传给 C1 作为参考,提示词如下:
古代山门宗派入口,两名修士对峙,拔剑相向,真气碰撞产生粒子爆炸, 冲击波将双方震退,裂开一道金色光柱,最终以人物在发光天空前的剪影定格。 动态镜头,电影级光影,动漫风格。
出来的效果还不错。每一格之间的衔接是顺的,角色的服装和配色在不同分镜里也能保持一致。
运镜节奏有变化。对峙是慢推,碰撞瞬间会加速,最后光柱给了一个慢慢拉远的大全景。
有几个画面做得挺好。比如
剑碰撞那一下,画面有轻微震动,光粒子会往外散开,有那种漫剧常见的粒子感,也比较接近日漫、国漫里的表现。
再比如这种术法效果,这一块也是 C1 这次比较明显的能力。
两个人对拼之后,天空里直接拉出光柱。能看到碎石被带起来,画面有震动,角色脚步也有切换。整体更接近漫剧那种表现逻辑。
Case 2|打斗动作
C1 这次还有一个比较明显的点,不只是术法效果,打斗动作的连贯性也做得更稳。包括一些基础的物理感,还有打斗里的特效表现,整体都还可以。
比如我写了一段偏古典武侠的提示词,不走仙侠,是那种更写实一点的风格。
画面整体偏暗,有电影感。设定是两名双胞胎武者,兄弟反目,在雨夜屋顶对战。主要是剑招来回对拼,同时会有光粒子、水滴这些细节,以及人物表情的变化。
提示词如下:
两名双胞胎武者,反目成仇,在雨夜的屋顶上激烈对战。快节奏的剑法,一人快速挥剑攻击,另一人格挡并以旋踢反击。每次碰撞时,雨水溅起。慢动作捕捉刀刃相撞的瞬间,随后恢复正常速度。电影式武侠风格,昏暗忧郁的光影。
两个角色的空间关系一直是稳定的,没有出现穿模。雨点在打斗里的飞溅也比较自然。
做了一个快转慢的升格处理。剑刃碰撞那一帧放慢,雨滴悬住,然后再恢复正常速度。
这段里有几个点比较明显。
角色表情更细了,尤其是一些微表情,比如皱眉。水滴打在脸上的效果也做出来了。再加上光影和高亮的变化,整体会更真实一些。
C1 模型其实支持多种漫剧形式,像 3D 漫也可以做。
我是在上面那段视频的提示词基础上改了一下设定,不再要求是双胞胎,而是换成两名不同形象的武者,同样放在屋顶上对战。
在 3D 漫这个场景里,人脸表情其实比二维漫更难做,但 C1 这次的表现还可以。
如果仔细看,能看到光粒子和水滴迸开的细节,尤其是打到角色发丝上的效果会更明显。再往下看,连两个人握剑的状态都做出了区别,比如剑柄的造型不一样,手上的青筋也能看到。
甚至再仔细看一点,会发现动作细节也做出来了。
比如白衣武士后踢腿的时候,会顺带带出一层水雾。后面两个人在屋顶移动时,几乎每一步都会把脚边的水雾带起来。
Case 3|术法特效
短剧里的术法特效,是现在 AI 战斗漫剧里一个很关键的吸引点。前面也能看到,
C1 在这块是做了强化的,这次可以专门看它处理高强度的光影和偏魔幻的术法效果。
比如我写了一个场景:三名修士在燃烧的寺庙里,对抗一个巨大的火焰恶魔。这个场景里需要有冰盾这种技能。
C1 对这类术法的“理解”和推理还可以,比如让一个修士施展冰盾,再叠加雷电效果,去和恶魔的火焰做碰撞。
提示词如下:
三名修士在燃烧的寺庙中与巨大的火焰恶魔激战。 一名修士施展冰盾,绿色衣服修士挥舞发光的长矛扑向恶魔从空中发射闪电。 恶魔挥动巨爪,击碎冰盾。碎片四散,火焰粒子飘浮空中。史诗般的动漫战斗,动态的镜头角度。
做好的视频如下:
AI 漫剧爆了 25 亿播放后,第一批垂直模型出现了|实测 PixVerse C1
AITNT
2026-04-08
9
0
本文由 Zyentor(智元界) 原创发布,转载请注明出处。
欢迎在 技术论坛 讨论本文相关内容