谷歌DeepMind强势发布Genie 2:开启视觉智能新纪元
随着2023年步入尾声,人工智能领域再次掀起波澜。继Sora疑似泄露和李飞 飞团队发布空间智能模型Demo后,谷歌DeepMind不甘示弱,推出了备受期待的新一代大规模基础世界模型——Genie 2。这款模型的问世,无疑为AI的发展添加了浓墨 重彩的一笔。
Genie 2:从一张图片到完整的3D互动世界
Genie 2的前身Genie于今年2月发布,当时仅限于生成2D世界。而Genie 2则 实现了质的飞跃,不仅扩展到了3D游戏环境,还在交互时长和复杂性上大幅升级。它能够模拟跳远、游泳等物理行为,并且基于大型视频数据集训练出物体交互、复杂角色动画、物理效果以及智能体行为建模等能力。
交互性与视觉体验的革新
用户只需用文本描述想要的世界,选择渲染效果,Genie 2就能根据Imagen 3提供的提示图像,快速构建一个全新的虚拟世界并与之互动。在交互过程中,人类或AI智能体通过键盘和鼠标输入动作,Genie 2会即时模拟并生成下一步的观察结果,展现出了惊人的即时性与准确性。
Genie 2的应用示例
- 动作控制:Genie 2 能智能响应通过键盘输入的动作,识别角色并正确完成移动。
- 生成不同轨迹场景:从同一起始帧出发, Genie 2 能让用户尝试不同的操作选择,创造出完全不同的游戏过程。
- 长时记忆:Genie 2 能够记住不在当前视野中的世界部分,并在它们再次可见时准确地渲染。
- 多样化环境:Genie 2 可以创建第一人称视角、等距视角或第三人称驾驶视频等不同的视角。
- 物体的可操作性和交互:Genie 2 能够建模与各种模拟物体交互,例如气球爆破、开门或射击爆炸桶等。
- 角色 动画与NPC互动:Genie 2 可以为各种类型的角色制作不同活动的动画,并建模其他智能体NPC,实现与它们的复杂交互。
推动AI智能体训练的无限可能
Genie 2的主要目的是为通用智能体提供无限多样的动态场景,用于训练和评估,进而推动机器人技术和虚拟助手等领域的 发展。它能够根据Imagen 3生成的图像提示,指导Genie 2模拟各种操控场景,测试其在动画化角色以及多样化动态建模方面的灵活性。
Genie 2在艺术家和设计师中的应用
对于艺术家和设计师而言,Genie 2的意义同样非凡。它能够将概念艺术和草图直接转化为完全可交互的虚拟环境,使创作者 能够快速完成原型设计,极大地提高了创意流程的效率,并优化了环境设计的整体过程。
智能体训练的革命性突破
Genie 2可以生成 丰富多样的虚拟环境,包括智能体从未见过的全新任务场景。例如,在Genie 2创建的3D环境中,游戏智能体SIMA可以使用键盘和鼠标控制角色,打开蓝色门和红色 门。由Genie 2实时生成游戏画面,为智能体提供动态反馈。
© 版权声明
文章版权归作者所有,未经允许请勿转载。