Google DeepMind 最近发布了名为 Genie 2 的新型基础世界模型,这是一款能够通过单张图片和文字描述生成可交互的3D虚拟世界的革命性技术。Genie 2 是今年早些时候推出的 Genie 模型的升级版,标志着人工智能在虚拟世界生成领域的一次重大突破。
Genie 2 的核心功能是根据用户输入的文本描述和图像,实时生成丰富的3D环境。例如,用户可以输入“森林中的可爱人形机器人”,模型便能构建一个包含机器人角色和可探索环境的动态场景。用户可以通过键盘或鼠标在这个虚拟世界中进行跳跃、游泳等互动。这些生成的世界不仅视觉效果丰富,而且支持长达一分钟的持续互动,尽管大多数情况下维持在10到20秒之间。
Genie 2 能够从不同视角(如第一人称视角与等距视角)生成连贯的世界,并且具备强大的空间记忆能力,即使某些区域不在视野范围内,系统也能保持一致性,提升用户体验。此外,Genie 2 还能模拟物体交互、动画效果、光照、物理现象、反射效果以及非玩家角色(NPC)的行为,使得生成的虚拟世界具有高度的真实感和沉浸感。
DeepMind 将 Genie 2 定位为一种研究与创新工具,专门用于“互动体验”的原型制作及 AI 智能体的评估。对于创意工作者,尤其是电子游戏行业的从业者而言,这种技术可能让他们喜忧参半,因为它简化了交互场景的创建,加速了创意验证和场景设计,为艺术家和设计师提供了便利。
值得注意的是,Genie 2 的训练数据来源和具体方法尚未详细披露,这引发了关于知识产权的担忧。尽管如此,该模型的发布无疑为未来的通用智能体提供了丰富的训练环境,并被视为解决安全训练具身智能体结构性问题的一种途径。
Genie 2 的出现不仅展示了其惊人的生成能力,更揭示了它对于世界运作规律的深刻理解。这种能力得益于其在海量视频数据集上的训练,以及涌现出的多项先进功能,如物体互动、复杂角色动画和真实物理效果的模拟