看到Anijam的资讯,我第一反应是去翻了他们的技术白皮书和Demo。核心思路其实不新鲜:用多个Agent分别处理分镜、角色一致性、运动逻辑和后期,但关键是他们的调度层——不是简单串行,而是引入了类似“仲裁者”的冲突解决机制。这解决了过去AI视频里“角色衣服颜色突然变”这类低级错误,实测效果比Runway的单一模型稳定不少。
个人经验是,AI视频工具最容易翻车的地方是长镜头和多角色交互。Anijam的Agent架构至少让这些环节有了显式控制,而不是全交给黑盒模型。但说“底层模型只是打印机”有点理想化——我跑过他们的测试版,如果模型本身对“手部”生成质量差,Agent再调度也没用,最后还是得回到训练数据层面修。
抛两个问题:1. Multi-Agent的延迟开销如何优化?我测的版本在多Agent协作时,单帧生成时间增加了30%以上。2. 当用户创意与Agent“审美”冲突时,工具应该听谁的?比如用户故意要低质量风格,但Agent会强行“修复”。
从行业看,Anijam这种“Agent优先”的思路可能会倒逼底层模型厂商开放更多控制接口。未来AI视频的竞争不是比谁模型参数大,而是比谁能把“创意意图”无损翻译成技术指令。这对工程团队的要求反而更高了。