{
title: "Roblox 140亿参数AI实时生成游戏场景,但玩家迷失了方向",
summary: "Roblox 研究员 Alberto Hojel 揭示了其 140 亿参数视频世界模型的突破与局限:模型能以 24fps 实时生成任何游戏场景,但玩家体验后却发现缺乏游戏核心——目标和规则。为解决此问题,团队提出了 Game Cartridge 架构,通过代码管理状态、AI 负责画面、VLM 作为视觉观察员,实现了逻辑与渲染的分离。原型游戏 Worlds Research Station 已开放测试,但空间一致性等挑战仍待解决。",
content: "当 Roblox 的研究员 Alberto Hojel 在 X 上抛出这个问题时,他其实是在反思一个令人兴奋又尴尬的发现:他们训练的 140 亿参数视频世界模型,能以 24fps 实时生成从纽约街头到喜马拉雅雪山的任何场景,玩家用 WASD 键盘操作就能自由探索。但内部游戏开发者试用后,反馈却出奇一致——玩家不知道自己该干什么。没有血量,没有任务,没有收集三个能量罐就能升级的逻辑。AI 生成的世界是一片美丽的荒野,但不是一款游戏。\n\n这个窘境让团队重新审视了游戏的定义。他们回溯到文字冒险游戏 Zork 和 Oregon Trail,发现这些几乎没有画面的作品,却拥有无比丰富的世界和游戏逻辑。它们的本质是处理文字输入、输出下一个世界状态的简单状态机。这个类比点醒了团队:游戏的核心是状态管理,不是画面渲染。AI 视频模型擅长渲染,但它不负责记住你捡了多少颗钻石,也不知道你的血量掉到了多少。\n\n解决方案是一套名为 Game Cartridge 的可编程代码框架,跑在 Roblox 游戏引擎里。开发者用 Luau 代码写一个状态机,管理血量、背包、任务进度等所有逻辑。一旦触发条件满足,比如捡到了能量罐,引擎就把当前状态打包成文字提示词,喂给视频模型,模型负责画出下一帧。但这里有一个关键难题:代码怎么知道 AI 生成的画面里发生了什么?他们引入了第三个角色——VLM(视觉语言模型)作为实时观察员。开发者在代码里定义视觉触发条件,比如玩家是否捡起了能量罐,VLM 持续盯着视频模型生成的每一帧,一旦条件满足就回调通知游戏引擎。逻辑闭环了:代码管状态,AI 管画面,VLM 负责把两者连起来。\n\n基于这套系统,内部开发者做出了一款叫 Worlds Research Station 的原型游戏,并在本周短暂对外开放。玩法是协作模式:一名玩家在 AI 实时生成的世界里探索,另一组玩家在任务控制中心远程操控场景。探索者需要在这片动态生成的世界里寻找能量罐补充血量,活下去。一位参与开发的工程师说,做这个游戏要学会两件事:第一是怎么用 AI 模型本身创造视觉效果,组合提示词构建世界;第二是怎么在模型和 Roblox 游戏引擎之间搭起那座桥。团队也没有掩饰局限,空间一致性问题目前仍未解决——当你转身再回头,AI 生成的世界可能已经变了样。这提醒我们,AI 生成游戏离真正的产品级体验还有一段路要走,但 Game Cartridge 的架构思路,或许为这个方向提供了一个值得借鉴的框架。"
}