腾讯T15与Adobe科学家联手推出Anijam，打造 AI 视频创作灵魂

王珏（左）方晨（右）
推荐语
动画是一个被低估的品类。它比真人影视更早拥抱数字化工具，比短视频承载更复杂的叙事，从迪士尼到吉卜力，证明了自己能撑起全年龄段的内容消费和完整的商业闭环。但动画的产能瓶颈也最为残酷——一部院线级动画电影动辄需要数百人、数年时间。当生成式 AI 开始重写内容生产的成本函数，动画可能是第一个被真正改变的品类。
方晨和王珏的判断正是从这里展开的。两人均出身 Adobe Research，
王珏在 Adobe 十年间做到当时华人最高职级 Principal Scientist，他做的图像去模糊技术被 FBI 用于破案，视频防抖技术被用在了奥斯卡提名影片
Hugo
里。
他在旷视领军研发的camera raw AI夜摄成像技术成为了后来的行业通用方案。方晨从 Adobe 到字节跳动再到腾讯，做过冲上抖音历史特效 Top 2 的实时 AI 滤镜。2023 年下半年，两人从腾讯离开，投入一个他们认为将被"完全彻底洗牌"的市场。目前，公司已累计完成千万美金级别的融资，投资方包括奇绩创坛、Atypical Ventures 和元璟资本。
第一款产品 Dzine 定位 AI 时代的 Photoshop，几乎零运营投入，靠用户口碑跑到了千万美金年营收。
但他们很快从用户数据中发现了更大的机会：留存最好的那批人，从
Rick and Morty
的制作团队到好莱坞独立导演，再到在 YouTube 上用动画讲故事的文学老师——全都在做 animation。这让他们决定以动画为切入点，做一款面向更大视频市场的产品。于是有了 Anijam：一个用 Multi-Agent 架构搭建的视频创作工具，第一步从动画开始，目标是让任何人用一句话做出一部完整的视频作品。上线两周，付费用户过千，超过一半的作品在手机上完成。
在这篇访谈中，两位创始人拆解了为什么 animation 是切入 AI 视频最务实的起点而非终点，为什么底层模型是"打印机"而 Agent 才是"灵魂"，为什么当前视频模型的训练范式可能从根本上不是最优解，以及一个
他们反复强调的判断：当工具足够强大之后，真正稀缺的不是技术，是人的创意。
底层模型本质上就是一台打印机——你叫它打什么、怎么打，它就怎么出。作品的灵魂不在模型本身，而在上层的规划层。做出好的内容对人来说本身就是极难的技能，我们要做的是把这个技能内化到 Agent 里。”
大厂还在做打印机，但评判器同样关键。现在大家都在抽卡——给一个 prompt，不行就再抽几十次。Agent 未来的进化方向是自评估、自迭代，形成闭环。”
做 Animation（动画）的人一直是内容创作群体里最 tech 的那部分——日常就在用 Maya、Blender，AI 对他们来说只是又一门新软件。所以他们最先用起来，不是巧合。
以前动画市场份额没那么高，不是因为需求不够，是因为产能太贵。一旦生产力被解放，动画会从一个受限品类变成一个主流品类
很多 Agent 产品都在追求 Agent 多智能，但人的创意才是最稀缺的燃料。一开始能抓住真正有创意的用户，后面千万级的增长目标反而是容易的那部分。
“我们的目标非常明确：什么时候能做到用户从一句话开始，最终成片是一部好莱坞级别的长片——半小时到两小时——通过用户跟 Agent 协同完成。我们不敢说完全达到，但目前跑在最前面。”
“做长视频时上下文非常长，你不能把所有上下文都塞给一个 Sub-agent——信息太多会产生幻觉。要在合适的位置动态调整 memory，让它既看到当前所需，又大致了解故事全貌。”
“After Effects 的创始人就在我们楼下，自己还写 code，30 年如一日地把全身心投入到一个产品里，对其他外在的东西完全不关心。Adobe 有一批这样几十年如一日打磨产品的人，对我们影响非常大。”
“长视频创作不像我们之前认为的以 PC 端为主——上线两周，超过一半的内容是用户在手机上完成的，甚至有人用手机做了十分钟以上的完整动画。”
Animation 是起点，不是终点。用户一想到要做视频、做动画，第一个想到的就是我们——做到这样，目标就达成了。”
01 曾把AI塞进Photoshop和好莱坞电影的人
ZP：
请两位
分别介绍
一下自己的背景。
方晨：
我是 2015、2016 年 PhD 毕业之后加入 Adobe Research，主要研究课题是怎么用生成式 AI 服务最专业的创作者。在 Adobe 期间经历了生成式 AI 几代技术迭代——从最早基于对抗生成网络（GAN），到基于扩散模型（Diffusion Model）。当时也是率先在 Adobe 内部把生成式 AI 落地到 Photoshop 这样的旗舰产品里，算是职业起点。
不过 Adobe 整体还是一家比较传统的软件公司，一年只有两个 release 周期。我个人有两个诉求：第一，希望技术能普惠到更多人手上；第二，希望追求更快的产品迭代。所以后来去了字节跳动——当时字节在北美刚成立 AI Lab，有几个 Adobe 和 Snap 背景的华人朋友一起过去，我也是比较早的一批。在字节主要做的是把 AI 技术落地到手机端，既追求效果也追求计算效率。
挑一个比较有亮点的项目：2020 年春节，我们做了一个移动端实时人脸属性编辑的功能——打开摄像头就能实时编辑年龄、性别、眉毛等细节，落地成一个实时滤镜。上线后发布视频量很快过了两三千万，冲上抖音历史特效发布量 Top 2。
从字节之后去了腾讯，开始从偏 research 转向偏业务，主要支持腾讯的短视频产品和腾讯视频等长视频产品。从腾讯出来后，2023 年中下旬和王老师一起开始创业。
王珏
：
我 2007 年从华盛顿大学（UW）博士毕业，跟着导师一起去了 Adobe，因为我长期做图像视频编辑，专业很对口，在 Adobe 待了将近 10 年。期间服务了 Photoshop、After Effects、Premiere 等旗舰产品，每年都会贡献新技术转化为产品功能。
在 Adobe 有两件印象很深的事。第一，我们最先把图像去模糊技术做到 Photoshop 里，用的是当时最先进的 AI 技术。发布后很快被 FBI 用来破案，破了两个儿童绑架案——我们的技术把嫌疑人的模糊图片恢复清晰，找到了关键证据，FBI 还专门来 Adobe 表扬感谢。第二是视频防抖技术，2011 年上线后，被电影
Hugo
的导演用在了一个经典的长镜头里做相机防抖——那个导演是技术流派，率先在电影里采用了我们的技术。我个人比较喜欢既有技术突破、又能真正用到实际场景的研发。
到 2017 年，我在 Adobe 做到了 Principal Scientist，当时是华人里职级最高的。但觉得没有更多新挑战了，就应旷视科技孙剑和印奇的邀请，去美国设立旷视研究院，我是第一任负责人。到 2019 年末团队已有 20 多人，为旷视开创了手机影像产品线，在华为、小米、OPPO、vivo 都有不少落地。
之后腾讯首席科学家张正友博士邀请我去腾讯 AI Lab 负责视觉图形学方面的研究。我加入腾讯后技术职级是 T15（杰出科学家），在腾讯技术职级排名前 10。在腾讯和方晨又变成了同事，经常交

腾讯T15与Adobe科学家联手推出Anijam，打造 AI 视频创作灵魂

讨论 (0 条)