好是,谷歌DeepMind的研究职员已经开拓出一项技能,让你能够创造出自己的虚构天下,这些天下与我们在高能量游戏中见到的奇异景不雅观颇为相似。
谷歌DeepMind最近推出了Genie,这是一个全新的模型,能够仅凭一段文本或一张图片的提示,就天生互动视频游戏。而且,这统统都无需任何关于游戏机制(即构成游戏的规则、元素和过程)的事先演习。
Genie是什么?
根据谷歌DeepMind的官方博客文章,Genie是一个基于互联网视频资源演习的根本天下模型。该模型能够“从合成图像、照片乃至草图中,天生无尽变革的可玩(动作可控)天下”。
研究论文《Genie:天生式互动环境》指出,Genie是第一个以非监督办法从未标记的互联网视频中演习出来的天生式互动环境。就规模而言,Genie拥有11B个参数,包括一个时空视频标记器、一个自回归动力学模型,以及一个大略且可扩展的潜在动作模型。
这些技能规格使得Genie能够纵然在缺少演习、标签或任何其他特定领域哀求的情形下,也能在天生的环境中逐帧进行动作。
Genie能做什么?
根据研究论文,Genie是一种新型的天生式AI,它使任何人——乃至是儿童——都能够想象并进入类似于人类设计的仿照环境的天生天下。只管Genie仅接管视频数据的演习,但它能够天生多样化的互动和可控环境。
简而言之,我们已经看到了许多天生式AI模型,它们能够产生创意内容,包括措辞、图像乃至视频。Genie的打破在于,它能够从单一图像提示中制作出可玩的环境。
试着回忆《哈利·波特与邪术石》中的一幕,哈利和他的朋友们进入霍格沃茨城堡,前往格兰芬多公共安歇室的途中。年轻的学生们看到一壁充满画像的墙壁,每个角色都在画框中细腻地移动着。Genie实际上便是将静态图像授予生命,为它们创造出自己的天下。
据谷歌DeepMind先容,Genie可以利用它从未见过的图像作为提示,这包括现实天下的照片、草图,让人们与他们想象中的虚拟天下互动。这便是所谓的根本天下模型。
在演习方面,研究论文强调他们更多地关注2D平台游戏和机器人学的视频。Genie采取一种通用方法进行演习,使其能够在任何类型的领域中事情,并且能够扩展到更大的互联网数据集。
为什么它很主要?
Genie的突出之处在于它能够仅从互联网视频中学习并再现游戏角色的掌握办法。这一点值得关注,由于互联网视频并没有关于视频中实行的动作的标签,乃至没有哪部分图像该当被掌握的信息。
“Genie不仅学会了哪些不雅观察部分常日是可控的,还推断出了在天生的环境中同等的多样潜在动作。把稳,相同的潜在动作在不同的提示图像中产生了相似的行为,”Google发布的博客中这样说。
谷歌DeepMind表示,这个模型最独特的地方在于,它许可你从单一图像中创造出一个全新的互动环境。这开辟了许多可能性,特殊是创造和进入虚拟天下的新办法。
为了证明这一点,研究职员利用文本到图像模型Imagen 2创建了一个图像,然后利用它作为提示来创建虚拟天下。同样的操作也可以用于草图。
有了Genie,任何人都将能够创造出自己完备想象出的虚拟天下。此外,该模型学习和开拓新天下模型的能力,标志着朝着通用AI代理(一个通过感知其周围环境与环境互动的独立程序或实体)的重大超过。