王珏 (左)方晨(右)
推荐语
动画是一个被低估的品类。它比真人影视更早拥抱数字化工具,比短视频承载更复杂的叙事,从迪士尼到吉卜力,证明了自己能撑起全年龄段的内容消费和完整的商业闭环。但动画的产能瓶颈也最为残酷——一部院线级动画电影动辄需要数百人、数年时间。当生成式 AI 开始重写内容生产的成本函数,动画可能是第一个被真正改变的品类。
方晨和王珏的判断正是从这里展开的。两人均出身 Adobe Research,
王珏在 Adobe 十年间做到当时华人最高职级 Principal Scientist,他做的图像去模糊技术被 FBI 用于破案,视频防抖技术被用在了奥斯卡提名影片
Hugo
里。
他在旷视领军研发的camera raw AI夜摄成像技术成为了后来的行业通用方案。方晨从 Adobe 到字节跳动再到腾讯,做过冲上抖音历史特效 Top 2 的实时 AI 滤镜。2023 年下半年,两人从腾讯离开,投入一个他们认为将被"完全彻底洗牌"的市场。目前,公司已累计完成千万美金级别的融资,投资方包括奇绩创坛、Atypical Ventures 和元璟资本。
第一款产品 Dzine 定位 AI 时代的 Photoshop,几乎零运营投入,靠用户口碑跑到了千万美金年营收。
但他们很快从用户数据中发现了更大的机会:留存最好的那批人,从
Rick and Morty
的制作团队到好莱坞独立导演,再到在 YouTube 上用动画讲故事的文学老师——全都在做 animation。这让他们决定以动画为切入点,做一款面向更大视频市场的产品。于是有了 Anijam:一个用 Multi-Agent 架构搭建的视频创作工具,第一步从动画开始,目标是让任何人用一句话做出一部完整的视频作品。上线两周,付费用户过千,超过一半的作品在手机上完成。
在这篇访谈中,两位创始人拆解了为什么 animation 是切入 AI 视频最务实的起点而非终点,为什么底层模型是"打印机"而 Agent 才是"灵魂",为什么当前视频模型的训练范式可能从根本上不是最优解,以及一个
他们反复强调的判断:当工具足够强大之后,真正稀缺的不是技术,是人的创意。
底层模型本质上就是一台打印机——你叫它打什么、怎么打,它就怎么出。作品的灵魂不在模型本身,而在上层的规划层。做出好的内容对人来说本身就是极难的技能,我们要做的是把这个技能内化到 Agent 里。”
大厂还在做打印机,但评判器同样关键。现在大家都在抽卡——给一个 prompt,不行就再抽几十次。Agent 未来的进化方向是自评估、自迭代,形成闭环。”
做 Animation(动画)的人一直是内容创作群体里最 tech 的那部分——日常就在用 Maya、Blender,AI 对他们来说只是又一门新软件。所以他们最先用起来,不是巧合。
以前动画市场份额没那么高,不是因为需求不够,是因为产能太贵。一旦生产力被解放,动画会从一个受限品类变成一个主流品类
很多 Agent 产品都在追求 Agent 多智能,但人的创意才是最稀缺的燃料。一开始能抓住真正有创意的用户,后面千万级的增长目标反而是容易的那部分。
“我们的目标非常明确:什么时候能做到用户从一句话开始,最终成片是一部好莱坞级别的长片——半小时到两小时——通过用户跟 Agent 协同完成。我们不敢说完全达到,但目前跑在最前面。”
“做长视频时上下文非常长,你不能把所有上下文都塞给一个 Sub-agent——信息太多会产生幻觉。要在合适的位置动态调整 memory,让它既看到当前所需,又大致了解故事全貌。”
“After Effects 的创始人就在我们楼下,自己还写 code,30 年如一日地把全身心投入到一个产品里,对其他外在的东西完全不关心。Adobe 有一批这样几十年如一日打磨产品的人,对我们影响非常大。”
“长视频创作不像我们之前认为的以 PC 端为主——上线两周,超过一半的内容是用户在手机上完成的,甚至有人用手机做了十分钟以上的完整动画。”
Animation 是起点,不是终点。用户一想到要做视频、做动画,第一个想到的就是我们——做到这样,目标就达成了。”
01 曾把AI塞进Photoshop和好莱坞电影的人
ZP:
请两位
分别介绍
一下自己的背景。
方晨:
我是 2015、2016 年 PhD 毕业之后加入 Adobe Research,主要研究课题是怎么用生成式 AI 服务最专业的创作者。在 Adobe 期间经历了生成式 AI 几代技术迭代——从最早基于对抗生成网络(GAN),到基于扩散模型(Diffusion Model)。当时也是率先在 Adobe 内部把生成式 AI 落地到 Photoshop 这样的旗舰产品里,算是职业起点。
不过 Adobe 整体还是一家比较传统的软件公司,一年只有两个 release 周期。我个人有两个诉求:第一,希望技术能普惠到更多人手上;第二,希望追求更快的产品迭代。所以后来去了字节跳动——当时字节在北美刚成立 AI Lab,有几个 Adobe 和 Snap 背景的华人朋友一起过去,我也是比较早的一批。在字节主要做的是把 AI 技术落地到手机端,既追求效果也追求计算效率。
挑一个比较有亮点的项目:2020 年春节,我们做了一个移动端实时人脸属性编辑的功能——打开摄像头就能实时编辑年龄、性别、眉毛等细节,落地成一个实时滤镜。上线后发布视频量很快过了两三千万,冲上抖音历史特效发布量 Top 2。
从字节之后去了腾讯,开始从偏 research 转向偏业务,主要支持腾讯的短视频产品和腾讯视频等长视频产品。从腾讯出来后,2023 年中下旬和王老师一起开始创业。
王珏
:
我 2007 年从华盛顿大学(UW)博士毕业,跟着导师一起去了 Adobe,因为我长期做图像视频编辑,专业很对口,在 Adobe 待了将近 10 年。期间服务了 Photoshop、After Effects、Premiere 等旗舰产品,每年都会贡献新技术转化为产品功能。
在 Adobe 有两件印象很深的事。第一,我们最先把图像去模糊技术做到 Photoshop 里,用的是当时最先进的 AI 技术。发布后很快被 FBI 用来破案,破了两个儿童绑架案——我们的技术把嫌疑人的模糊图片恢复清晰,找到了关键证据,FBI 还专门来 Adobe 表扬感谢。第二是视频防抖技术,2011 年上线后,被电影
Hugo
的导演用在了一个经典的长镜头里做相机防抖——那个导演是技术流派,率先在电影里采用了我们的技术。我个人比较喜欢既有技术突破、又能真正用到实际场景的研发。
到 2017 年,我在 Adobe 做到了 Principal Scientist,当时是华人里职级最高的。但觉得没有更多新挑战了,就应旷视科技孙剑和印奇的邀请,去美国设立旷视研究院,我是第一任负责人。到 2019 年末团队已有 20 多人,为旷视开创了手机影像产品线,在华为、小米、OPPO、vivo 都有不少落地。
之后腾讯首席科学家张正友博士邀请我去腾讯 AI Lab 负责视觉图形学方面的研究。我加入腾讯后技术职级是 T15(杰出科学家),在腾讯技术职级排名前 10。在腾讯和方晨又变成了同事,经常交
腾讯T15与Adobe科学家联手推出Anijam,打造 AI 视频创作灵魂
AITNT
19天前
6
55
本文由 Zyentor(智元界) 原创发布,转载请注明出处。
欢迎在 技术论坛 讨论本文相关内容