周一,谷歌的人工智能企业DeepMind展示了Genie的现场演示,这是一种生成型人工智能模型,在从数十万个游戏视频中学习游戏机制后,可以通过简单的提示创建可玩游戏。
Genie是Generative Interactive Environments的缩写,由谷歌和不列颠哥伦比亚大学合作开发,可以根据用户提示创建侧滚动的2D平台游戏,如使用单个图像的《超级马里奥兄弟》和《Contra》。
谷歌DeepMind表示:“过去几年,生成型人工智能出现了,其模型能够通过语言、图像甚至视频生成新颖和创造性的内容。”。“今天,我们介绍一种新的生成人工智能范式,即生成交互环境:Genie。”
Genie可以从单个图像提示创建交互式、可播放的环境,这要归功于谷歌研究人员所描述的推断视频帧之间动作的潜在动作模型、将原始视频帧转换为离散令牌的视频令牌化器,以及确定下一帧的动态模型。
谷歌DeepMind开发者Tim Rocktäschel在推特上表示:“我们关注的不是归纳偏见,而是规模。”。“我们使用2D平台上超过20万小时的视频数据集,并训练一个11B世界模型……[然后]以一种无监督的方式,Genie学习以一致方式控制角色的各种潜在动作。”
Rocktäschel继续说道,Genie还可以将其他媒体类型转换为游戏。在附带的谷歌DeepMind研究论文中,可以提示Genie根据各种输入生成各种动作可控的虚拟世界。
Rocktäsche说:“我们的模型可以将任何图像转换为可播放的2D世界。”。“Genie可以让人类设计的作品栩栩如生,比如草图,例如世界上有史以来最年轻的两位创作者Seneca和Caspian的美丽艺术品。”
虽然Genie擅长从文本或图像创建二维世界,但Rocktäschel表明,人工智能模型可以做的不仅仅是构建侧滚动条,还可以教授其他人工智能模型或“代理”有关三维世界的知识。
他说:“我们还对Genie进行了无动作机器人数据(RT-1)训练,并证明我们也可以在那里学习动作可控模拟器。”。“我们认为这是迈向AGI通用世界模型的有希望的一步。”
通用人工智能(AGI)也被称为奇点,是指能够像人类一样理解和应用所学知识的人工智能。
谷歌DeepMind表示,Genie的数据集是通过过滤公开的互联网视频生成的,特别是那些包括“dpeedrun”或“playthrough”等标题的视频,而不包括“电影”或“开箱”等单词
谷歌DeepMind表示,人工智能技术、硬件和数据集的进步使其能够创建连贯、对话的语言和“清晰、美观”的图像。
研究人员继续说道:“在选择关键词时,我们手动抽查结果,以检查它们通常产生的2D平台游戏视频的数量不会超过碰巧共享相似关键词的其他类型的视频。”。
谷歌DeepMind表示:“有了Genie,我们未来的人工智能代理可以在一个永无止境的新生成世界课程中接受培训。”。“在我们的论文中,我们有一个概念证明,Genie学到的潜在动作可以转移到真实的人类设计环境中,但这只是触及了未来可能发生的事情的表面。”
在很大程度上要归功于去年OpenAI的GPT-4的推出,包括谷歌、微软和亚马逊在内的科技公司在生成人工智能方面投入了大量资金。本月早些时候,谷歌宣布在从谷歌巴德更名后推出基于订阅的Gemini人工智能模型。
谷歌及其DeepMind项目的代表没有立即回应Decrypt的置评请求。
由Ryan Ozawa编辑。
编辑:web3528btc 来源:加密钱包代币