前段时间有个叫 Happy Horse 的模型实火了一把,在知名 AI 评测分析平台 Artificial Analysis 上,直接把 Seedance 2.0 挤到了第二。
最近,这个团队又一发力,祭出了「Happy Oyster」,快乐生蚝。
本来以为又双叒是一款文生视频软件,高手掐架。
没想到还是小看生蚝了,别人的卖点都是生视频多快多好,它的卖点在
实时改写世界
。
阿里的 ATH 事业群,真是卧虎藏龙,前有快乐小马,现有快乐生蚝。
但是世界模型这个赛道也太冷门了吧,好像大家都没听说过。
出于好奇,我申请了 waitlist,带你抢先体验一波。
这是我用 Oyster 跑的我的世界。这些都是 AI 实时生成的,踩草坪的声音,蹚水的声音,这个游戏世界的一切,都是 AI 实时创造出来的。
这是我用荒野大镖客的单张图片,生成的游戏世界,骑马的声音,实时渲染的画面,真挺有意思的。
这是寂静岭的效果,声音很有那恐怖阴森感。
简单来说,Happy Oyster不仅可以通过提示词和参考图生成视频,还可以通过视频衍生出一个数字世界。
你可以在这个世界进行实时的互动,也可以通过提示词,让世界一键重开,有点像电影《头号玩家》里的绿洲。
世界模型区别于传统“写 prompt → 等抽卡 → 收到成⽚”的流程,更注重长时序的进化。
相比于传统的视频生成,这种实时渲染的世界,也会更难做一些。
在「世界模型」这条赛道上,李飞飞是第一个吃螃蟹的人。2025年11月,她创立的 World Labs公司发布了首款商业化世界模型 Marble。
但是,Marble 的实用性不强,更像个 3D 静态空间,没有人物动画,而且一靠近或者拉远,就会崩坏,有点像谷歌地图的街景。
目前这条赛道比较知名的除了 genie 和腾讯旗下的混元,基本就没有什么对手了。
同为世界生成模型,Happy Oyster 体验下来,感觉有以下主要的优势:
一、超强交互性
Happy Oyster分为两种模式,导演模式和漫游模式。两种模式都有很强的交互性, 世界都是实时演算的,每次打开需要等个 30s。
我们先玩大生蚝主推的漫游模式,在这里可以自由探索世界。
玩法分为首帧图和自定义两种类型,首帧图需要上传一个参考图,首帧图就是用参考图和提示词生成世界。
试下来,感觉支持的风格比较多样,不管是方块像素风,还是 3A 大作的写实风,或者是水墨仙侠风,都能跑出来。
最重要的是,生成世界后,它还能为你生成一个原创的游戏角色。
这个游戏角色可以通过 WASD 键控制,帮你探寻整个世界,跟场景中的物品或人物进行交互。
上面的动图,这是我生成的大鳄鱼在街上闲逛的效果,动效都很逼真。
自定义就更有意思了,可以分开上传人物参考和背景参考,想怎么跨怎么跨,想怎么捏就怎么捏。
想要什么人物,可以先用 AI 生图工具,生成人物的三视图。
然后上传 Oyster 人物不变换地图,画风也可以随便切,古风人物放进现代城市、动漫角色塞进写实实景都毫无违和。
这是我把原神角色,放进赛博朋克 2077 游戏世界里的样子:
这是把她放进了大表哥游戏里:
这是放进水墨世界的效果:
觉得不适配,可以用提示词单独精修人物神态、服饰细节,单独调整环境光影天气,人物与场景完全解耦创作,不用整体重跑。
怎么感觉莫名其妙会很出片...
界面下方还可以自由切换视角,支持第一人称沉浸、第三人称跟随视角,就跟开放世界游戏一模一样,代入感很强。
第一人称 belike:
而且这个世界是「无边际」的,没有空气墙,怎么探索都可以。
不会遇到场景变糊或者阻断,物品飘起来之类的问题(然而打游戏的时候经常碰到hhh)。
再看下导演模式。
导演模式相比于普通文生视频,最大的区别在于它的游戏性、交互性比较强。
用起来就像真正片场里的导演一样,能通过文字指令实时操控镜头。
不仅能调度角色、改变剧情走向,甚至可以改变镜头的运动轨迹,以及整体的音画氛围。
因为Happy Oyster是支持「⾳视频联合」⽣成的,这一点超越了 Genie,操作起来会方便很多,不用额外去配音。
话不多说,直接上我跑的短剧片段。可以看到,台词是可以直接修改的。
只要在框内输入相应的提示词,就可以直接硬控剧情走向。
生蚝怕你没有灵感,还特意在提示词栏设定了会弹出来的关键词,让你去点击触发剧情。
这个模式最多支持上传4张参考图并输入文本画面描述,也支持文本里@参考图。
更有意思的是这个 Events 参数,代表该模式下的自动事件密度,分为 Peaceful、Regular、Dramatic 三类。
如果你想要自主精控镜头、手动导演运镜,就选低事件密度 Peaceful 档位,画面不会被随机剧情打乱。
如果你现在比较缺失灵感,那 Dramatic 可能更适合你,它自己就会生成冲突性特别强的剧情。
这是在 dramatic 模式下,自主生成的百变小樱变身:
值得一提的是,我在使用导演模式的时候发现模型并不是简单粗暴地输入我的指令再输出,而是会思考上下两句指令的因果关系。
并且,在其中插入适时的情绪转变和台词,用来衔接我的指令(具体可以参考我前面跑的短剧片段)。
活人感有点太重了。
如果你是完全的新手小白,我会推荐你用展览馆模式,可以到官方已经做好的世界里漫游。
二、很长很稳定
它生成的内容,时长感人,而且空间很稳定。
导演模式可连续生成长达 3 分钟的 720p 实时视频,对比一下现在主流的文生视频软件:
Seedance 2.0:最长 15 秒
可灵 Kling 3.0:单次 5–10 秒,拼接最长 2 分钟
海艺 AI:单段 30 秒
Runway Gen-4.5:5–10 秒
绝大多数模型只能剪出一小段镜头,很难做成完整剧情。而在 Happy Oyster 的导演模式里,三分钟完全可以生成短剧男女主从相爱到分手的全过程。
漫游模式⽀持 1 分钟以上的实时位移,实测真的不崩,人物怼在物品上会自动弹开。
怎么怼都不会穿模。
对比其他世界模型:
Marble:基本只能静态看,一移动就崩,没有真正意义的实时漫游。
Genie 3:官方没给明确时长,实测撑不到30秒就开始乱穿模。
就算是复杂的动态,也可以清晰地认识到物理关系。
比如划船:
滑板运动:
能做到这些,因为Happy Oyster用的是流式生成框架,它不是一次性生成整段的,而是一帧一帧边跑边改的,而不是先把所有内容计算完毕再输出成片,这也减少了计算压力。
为了解决一致性难题,Happy Oyster 也下了功夫,它搭载的持续状态复用机制,专门用来解决长时间生成最头疼的内容漂移、场景崩坏问题。
这个机制会牢牢记住之前生成的场景、角色、结构,一步步渐进式更新内容,全程守住画面稳定性。
这点育碧要学习一下。
不过我觉得生蚝 Oyster 最有利于短视频创作者的地方还是音画协同技术,画面和声音在同一个模型里同步生成,环境音全程对齐,彻底省去了音画割裂的后期麻烦。
三、并不是只用来生成内容的
其实生蚝 Oyster 并不只是用来生成内容的,它的野心不在这里。
生蚝 Oyster 更多是为沉浸式内容、具身智能做准备,他们更看重与现实场景做同步联动。
并且,这个团队似乎还真想去做虚拟现实的社群,这是要做每人一块的
阿里官宣上线Happy Oyster,全网首发实测!
AITNT
2026-04-20
7
0
本文由 Zyentor(智元界) 原创发布,转载请注明出处。
欢迎在 技术论坛 讨论本文相关内容