告别Prompt抽卡和评分通胀：一个让AI游戏真正「机制化迭代」的框架

让大模型写一个小游戏，已经不新鲜了。它可以很快生成一个 Flappy Bird、一个塔防游戏、一个物理解谜页面，甚至还能补上按钮、分数和简单动画。但真正的问题是：
这些游戏到底有没有新的玩法？它们是在创造，亦或只是把已有游戏换了一层皮？
如果你让 GPT 写一个小游戏，它大概率能在几分钟内吐出一堆像模像样的游戏代码。但如果你要求它在此基础上再改一版、再改一版，改到第四代时，事情就开始变得诡异 —— 它可能忘了第一代的核心玩法是什么，可能把好不容易调通的物理引擎又改崩了，也可能只是在视觉层面换了一层皮，却声称自己创造了 "全新的游戏体验"。
更深层的问题在于评分。当你让 AI 给自己的作品打分时，它往往会客气地给出 7 分或 8 分，无论实际质量如何。这种 "打分通胀" 让迭代优化失去了方向，对 “Creativity” 的把控正是当下大模型所普遍缺乏的的能力，以至于也很难给出高屋建瓴的评价和建议。
CreativeGame
关注的正是这个问题。它不是让 AI 一次性生成一个看起来像游戏的页面，而是让 AI 围绕 “机制” 持续迭代：保留原始游戏最容易理解的核心循环，同时逐步引入新的规则、新的目标和新的玩家行为意义。
来自布里斯托大学、上海交通大学和 Sreal AI 的研究团队最近公开了一项名为 CreativeGame 的技术报告，试图从根本上打破这种僵局。他们的思路很清晰：游戏生成不该是一次性的 Prompt 抽卡，而应该是一场有记忆、有计划、可验证的机制进化。
报告标题
：
CreativeGame: Toward Mechanic-Aware Creative Game Generation.
报告链接：https://arxiv.org/pdf/2604.19926
项目链接：https://yiweishi-cn.github.io/CreativeEvolutionGame/index.html
机制优先：先写 "设计文档"，再写代码
类似于传统的游戏开发流程，策划会优先制定一个游戏的核心玩法，再逐步构建游戏其他的数值系统等分支。CreativeGame，强制 AI 在动手写代码之前，先完成一份结构化的设计文档 —— 明确这一轮要保留什么核心机制、新增什么规则、移除什么旧设计、以及如何重组已有元素。这种做法彻底改变了 AI 与游戏的关系。
在传统的生成流程中，机制往往只是事后的描述标签，AI 根据 Prompt 自由发挥，生成完了再贴几个标签总结自己做了什么。而 CreativeGame 把机制提到了规划的最前端：检索全局游戏机制档案，然后输出一份明确的机制合约。这份合约会像合同一样被附加到后续的 Skeleton、Feature、Visual、Refinement 四个代码生成阶段，确保代码是在履行设计意图，而不是漫无目的地堆砌。
例如下面这个案例，我们希望 Agent 能自动给出一个有趣的塔防游戏，它会从经典的策略塔防游戏：例如 Zombie vs Plants 中提取设计灵感，并包含了 Bloom (向日葵，Energy 生产者)，Shooter（豌豆射手，75 Energy 消耗，可以对入侵的丧尸发射子弹，消灭敌人）等基本元素：
策略塔防游戏：建造开销、塔防防御规划、生存建造抵御入侵，经典的类植物大战僵尸玩法。
然而，一个完整好玩的游戏，并不是只有简单的核心玩法，还包括关卡设计、植物图鉴、各植物之间的配合等。于是 CreativeGame 进行了一定的机制改进和设计，引入了 waves（也就是关卡），路线弯曲（减缓丧尸移速），豌豆可以给向日葵进行充能，使之成为可以发射阳光大炮的高级武器。
策略塔防游戏（进化版）：丰富了 waves（关卡）设计，创新式引入了路线弯曲机制，以及 Shooter 可以给 Gen（Energy 生产者）进行充能，这里 Energy 延伸为 “炮台充能”。
创意激发：真正让模型具备创意生成的能力，而不是模仿
当前的大模型在文本、图像、音乐等领域展现出了惊人的生成能力，但一个核心问题始终存在：它们究竟是在 “创造”，还是仅仅在对训练数据中的模式进行高维度的重新排列？从表面上看，模型能够写出前所未见的故事、设计独特的视觉风格，甚至提出看似新颖的概念组合，这似乎已经接近人类意义上的创造力。然而，深入分析会发现，大模型的生成过程本质上仍然高度依赖于海量已有数据中的统计规律。它并不像人类那样拥有真实的体验、动机、情感冲突和价值判断，也缺乏 “为什么要创造” 的内在驱动力。
因此，创意激发的关键，不是单纯扩大模型参数规模或训练数据量，而是思考如何让模型拥有更接近 “原创性” 的机制。例如，引入目标驱动的探索能力、长期记忆与反思机制，以及与真实环境持续交互所产生的反馈闭环。只有当模型能够主动发现问题、形成偏好、修正自身认知，它才可能从 “高级模仿者” 走向真正意义上的 “创造者”。
诚然，这种激发需要良性的反馈，甚至人类的参与。当你让 GPT 给游戏创意打分时，它往往慷慨给出 7 分或 8 分 —— 不是因为真的新颖，而是因为熟悉感偏见：LLM 天然倾向给 "看起来像那么回事" 的内容高分。如果优化目标完全依赖这种主观判断，系统很快就会学会一种危险的生存策略：用华丽的视觉描述和复杂的叙事框架，包裹一个换皮的 Pong。这不是创造，是高概率模仿。评分虚高是 AI 生成领域的顽疾。研究团队观察到，GPT 类模型在评估创造力时存在严重的分数膨胀，动辄给出 7 分或 8 分，无论输入质量如何。更危险的是，如果优化目标完全依赖 LLM 判断，系统会倾向于生成 "听起来很有创意但玩起来空洞" 的内容。
CreativeGame 的解决方案是提出了 CreativeProxyReward—— 一套以确定性代码编译为主的代理奖励系统，包括：结构机制变化、计划机制的视线程度、相对全局专家机制库的新颖性、运行时鲁棒性，并辅助性伴随着 LLM 的主观创造力评价。
这套系统还设有两道硬门槛。如果生成的游戏跑不起来，奖励直接腰斩；如果静态分析发现游戏循环没被调用、Canvas 上下文没获取、括号不匹配等基础错误，分数也会被打到骨折。这意味着，一个 "创意十足" 但运行就崩的游戏，在 CreativeGame 的价值观里拿不到高分。基于完备的代码环境，创意不再是修辞学的把戏，而是可被验证的结构事实。
以下是一些创意式机制设计的案例：
Game 1 Demo: Fireboy & Watergirl 原本是一个双角色平台解谜游戏。Fireboy 可以通过火，但不能碰水；Watergirl 可以通过水，但不能碰火。玩家需要控制两个角色，按下机关、穿越平台，并让他们分别到达对应出口。这个游戏的核心，是双角色合作、元素限制、机关触发和平台跳跃。
CreativeGame 没有简单复制 “双人合作” 这个形式，而是把它重新解释成 “自己和自己的过去合作”。在 Memory Relay 中，一个角色可以被停放在光环中，为桥梁或机关供能。也就是说，即使角色当前没有被玩家控制，它仍然是关卡逻辑的一部分。当玩家切换角色时，系统会记录刚才的移动路径。这条路径会变成 replay ghost，在场景里重新