AI一键生成类黑神话腾讯推出游戏视频模型GameGenO

《西游记》这就上桌，搭配BGM，有内味儿了（doge）。

这便是腾讯近日推出的GameGen-O，一个专学天生开放天下视频游戏的Transformer模型。

大略说，这个模型能够仿照各种游戏引擎功能，天生游戏角色、动态环境、繁芜动作等等。

当然也支持交互掌握，用户可以通过文本、操作旗子暗记和视频提示来掌握游戏内容。

AI一键生成类黑神话腾讯推出游戏视频模型GameGenO

一公布就在（前推特）开启了刷屏模式，网友们开始列队尖叫：

游戏事情室Azra Games的联创兼CTO更是直言：

GameGen-O将成为游戏事情室的ChatGPT时候。

“游戏事情室迎来ChatGPT时候”

详细来说，这个项目由腾讯联合港科大、中国科大推出。

推测想要做的事儿，是用AI模型替代一些游戏开拓环节。
比如目前公布的游戏角色创建、游戏环境天生、动作天生、事宜天生以及各种交互掌握。

下面我们挨个预览一波~

现在，用GameGen-O就能直接天生各种角色了，西部牛仔、太空人、邪术师、警卫……一键天生。

经费不敷造成真实取景困难，也有plan B了！

给队友展示骚操作，各种人称视角的动作天生也能轻松拿捏。

游戏必备环节——给玩家偶尔上亿点难度，海啸、龙卷风、失火事宜这就安排（doge）。

与此同时，GameGen-O也支持开放域天生，即不限风格、环境、场景那种。

末了，用文本、操作旗子暗记和视频提示就能实现交互，向左、向右、走向黎明……

好家伙，谁都知道游戏开拓有多烧钱，这下，普通玩家也能用GameGen-O制作游戏了。

一位AI架构师网友更是断言：

用GPT-4o标注数据

为了开拓这个模型，团队自述紧张进行了两项事情：

构建专有数据集OGameData，采取GPT-4o标注数据经历两个阶段的演习过程

详细来说，团队首先提出了一个数据集构建管道。

团队从互联网上网络了32,000个原始视频，这些视频来自数百款开放天下游戏，时长从几分钟到几小时不等，类型包括角色扮演、第一人称射击、赛车、动作益智游戏等。

然后由人类专家对这些视频进行识别和筛选，终极得到大约15,000个可用视频。

下一步，将筛选后的视频通过场景检测技能切割成片段，并对这些视频片段进行基于美学、光流和语义内容的严格排序和过滤。

接下来利用GPT-4o对超过4,000小时的高质量视频片段进行细致的注释，这些片段的分辨率从720p到4k不等。

为了实现交互掌握性，团队从注释后的数据集中选择最高质量的片段，并进行解耦标签（decoupled labeling）。

这种标签设计用于描述片段内容状态的变革，确保演习模型的数据集更加风雅和互动。

对付这种人类专家和GPT-4o一起事情的形式，有网友认为：

这是递归自我改进（recursive self-improvement）的一种形式。
（人类专家确保了注释的准确性，并通过反馈机制帮助GPT-4o进行自我改进）

完成数据准备事情后，团队经由根本预演习+指令调度两个过程来演习GameGen-O。

在根本演习阶段，GameGen-O模型利用了一个2+1D VAE（变分自编码器，如Magvit-v2）来压缩视频片段。

为了使VAE适应游戏领域，团队对VAE解码器进行了特定领域的调度。

团队采取了不同帧速率和分辨率的稠浊演习策略，以增强跨帧率和跨分辨率的泛化能力。

其余，模型的整体架构遵照了Latte和OpenSora V1.2框架的原则。

通过利用掩码把稳力机制，让GameGen-O具备了文本到视频天生和视频续集的双重能力。

团队先容称：

这种演习方法，结合OGameData数据集，使得模型能够稳定且高质量地天生开放领域的视频游戏内容，并为后续的交互掌握能力奠定了根本。

在这之后，预演习的模型被固定，然后利用可演习的InstructNet进行微调，这使得模型能够根据多模态构造指令天生后续帧。

InstructNet紧张用于接管各种多模态输入，包括构造化文本、操作旗子暗记和视频提示。

在InstructNet分支的调度过程中，当前内容被用作条件，从而在当前片段内容和未来片段内容之间建立了映射关系，这在多模态掌握旗子暗记下进行。

造成的结果是，在推理时，GameGen-O许可用户基于当前片段不断天生和掌握下一个天生的片段。

目前，GameGen-O已创建GitHub官方仓库，只不过还没来得及上传代码。

感兴趣的童鞋可以先收藏一波了~

— 完 —

量子位 QbitAI · 头条号签约

关注我们，第一韶光获知前沿科技动态

每期AI知识网

AI一键生成类黑神话腾讯推出游戏视频模型GameGenO

新疆油田井口监测安然预警迈向智能化时代

东芝Z570KF火箭炮电视体验心得120Hz高刷游戏机能出众