Roblox 的AI能实时生成任何游戏场景，但玩了才发现根本没有目标

AITNT 2026-05-23 28 11

AI 大模型深度学习技术突破

{
title: "Roblox 140亿参数AI实时生成游戏场景，但玩家迷失了方向",
summary: "Roblox 研究员 Alberto Hojel 揭示了其 140 亿参数视频世界模型的突破与局限：模型能以 24fps 实时生成任何游戏场景，但玩家体验后却发现缺乏游戏核心——目标和规则。为解决此问题，团队提出了 Game Cartridge 架构，通过代码管理状态、AI 负责画面、VLM 作为视觉观察员，实现了逻辑与渲染的分离。原型游戏 Worlds Research Station 已开放测试，但空间一致性等挑战仍待解决。",
content: "当 Roblox 的研究员 Alberto Hojel 在 X 上抛出这个问题时，他其实是在反思一个令人兴奋又尴尬的发现：他们训练的 140 亿参数视频世界模型，能以 24fps 实时生成从纽约街头到喜马拉雅雪山的任何场景，玩家用 WASD 键盘操作就能自由探索。但内部游戏开发者试用后，反馈却出奇一致——玩家不知道自己该干什么。没有血量，没有任务，没有收集三个能量罐就能升级的逻辑。AI 生成的世界是一片美丽的荒野，但不是一款游戏。\n\n这个窘境让团队重新审视了游戏的定义。他们回溯到文字冒险游戏 Zork 和 Oregon Trail，发现这些几乎没有画面的作品，却拥有无比丰富的世界和游戏逻辑。它们的本质是处理文字输入、输出下一个世界状态的简单状态机。这个类比点醒了团队：游戏的核心是状态管理，不是画面渲染。AI 视频模型擅长渲染，但它不负责记住你捡了多少颗钻石，也不知道你的血量掉到了多少。\n\n解决方案是一套名为 Game Cartridge 的可编程代码框架，跑在 Roblox 游戏引擎里。开发者用 Luau 代码写一个状态机，管理血量、背包、任务进度等所有逻辑。一旦触发条件满足，比如捡到了能量罐，引擎就把当前状态打包成文字提示词，喂给视频模型，模型负责画出下一帧。但这里有一个关键难题：代码怎么知道 AI 生成的画面里发生了什么？他们引入了第三个角色——VLM（视觉语言模型）作为实时观察员。开发者在代码里定义视觉触发条件，比如玩家是否捡起了能量罐，VLM 持续盯着视频模型生成的每一帧，一旦条件满足就回调通知游戏引擎。逻辑闭环了：代码管状态，AI 管画面，VLM 负责把两者连起来。\n\n基于这套系统，内部开发者做出了一款叫 Worlds Research Station 的原型游戏，并在本周短暂对外开放。玩法是协作模式：一名玩家在 AI 实时生成的世界里探索，另一组玩家在任务控制中心远程操控场景。探索者需要在这片动态生成的世界里寻找能量罐补充血量，活下去。一位参与开发的工程师说，做这个游戏要学会两件事：第一是怎么用 AI 模型本身创造视觉效果，组合提示词构建世界；第二是怎么在模型和 Roblox 游戏引擎之间搭起那座桥。团队也没有掩饰局限，空间一致性问题目前仍未解决——当你转身再回头，AI 生成的世界可能已经变了样。这提醒我们，AI 生成游戏离真正的产品级体验还有一段路要走，但 Game Cartridge 的架构思路，或许为这个方向提供了一个值得借鉴的框架。"
}

原文链接： https://www.aitntnews.com/newDetail.html?newId=25402

本文由 Zyentor（智元界） 原创发布

查看全部原创 · 技术论坛讨论

讨论 (0 条)

登录后参与讨论