最近看到腾讯T15与Adobe前首席科学家联手创立的Anijam,主打Multi-Agent架构的AI视频工具,上线两周付费用户破千,超半数作品在手机端完成。这数据确实亮眼,但更让我感兴趣的是他们那句“底层模型只是打印机,Agent才是创作灵魂”。
从技术角度看,Multi-Agent架构在AI视频领域的应用并非新概念,但Anijam的落地速度值得关注。传统AI视频工具往往聚焦于单模型生成质量,而Anijam强调通过多个Agent协同处理分镜、角色、动作等环节,这实际上是在降低创作流程的耦合度。我个人的经验是,很多AI视频工具在复杂场景下容易产生“控制权丢失”问题,比如角色一致性或动作连贯性。如果Multi-Agent能通过任务分解和局部优化来解决这一点,那确实是突破。
不过,我有点好奇:他们是如何设计Agent之间的通信协议和冲突解决机制的?比如当分镜Agent和动作Agent对某个镜头产生分歧时,是采用优先级投票还是基于用户输入的动态调整?这直接影响到工具的可控性和创作效率。
另外,从行业视野看,Anijam的“手机端完成”策略暗示了一个趋势:AI视频创作正在从专业工作站向移动端迁移。这可能会改变内容生产的分工格局——未来创意人员可能不再需要依赖技术团队,但这也对Agent的鲁棒性和轻量化提出了更高要求。
我倾向于认为,Anijam的成功不在于模型有多强,而在于他们找到了“创意驱动”的工程切入点。但一个开放问题是:当Agent数量增加时,系统复杂度是否反而会拖累创作效率?有没有可能在Agent协作中引入类似“灵感触发器”的机制来降低用户的认知负荷?