1句话生成可玩的3D世界!谷歌Genie3震圈登场,世界模型终于迎来ChatGPT时刻

发布时间:2025-08-06 15:15  浏览量:1

其博客提到,Genie 3的一致性是一项新兴能力。NeRF和高斯分布等方法在实现一致的可导航3D环境同时,需要依赖于提供明确的3D表示,相比之下,Genie 3生成的世界是根据世界描述和用户操作逐帧创建的,因此生成内容更为丰富、真实。Genie 3通过记忆已生成的内容并进行长期推理,自学世界中的物体如何移动、下落和互动。该模型是自回归的,这意味着它一次只生成一帧,其必须回顾之前生成的内容,才能决定下一步要做什么。这是该架构的关键部分。谷歌DeepMind的博客中也提到了Genie 3目前的局限性:行动空间有限:尽管可触发的世界事件允许进行广泛的环境干预,但它们不一定由Agent本身执行,Agent可直接执行的操作范围目前受到限制;与其他Agent的交互和模拟:准确建模共享环境中多个独立Agent之间的复杂交互仍然是一个持续的研究挑战;准确表示真实世界的位置:Genie 3目前无法以完美的地理精度模拟真实世界的位置;文本渲染:通常只有在输入世界描述中提供时才会生成清晰易读的文本;交互时长有限:该模型目前支持几分钟的持续交互,无法支持长达数小时的交互。在此基础上,谷歌DeepMind宣布Genie 3以有限研究预览版的形式发布,使其能够从其他学者处收集重要的反馈和提供跨学科视角。04.结语:谷歌DeepMind深耕模拟环境研究或加速AI Agent训练此前十多年来,谷歌DeepMind一直致力于模拟环境领域的开创性研究,从训练Agent掌握实时战略游戏, 到开发用于开放式学习和机器人技术的模拟环境,再到开发世界模型。去年,其推出Genie 1和Genie 2两大基础世界模型,可以为Agent生成新的环境,并发布视频生成模型Veo 2和Veo 3。可以看出,这些AI系统能够利用自身对世界的理解来模拟世界的各个方面,使Agent能够预测环境将如何演变以及其行为将如何影响环境。谷歌DeepMind的博客提到,世界模型是迈向通用人工智能(AGI)的关键基石,因为它们使得在丰富多样的模拟环境中训练AI Agent成为可能。从目前的应用场景来看,Genie 3或许可以为机器人和自主系统等提供训练空间并评估其表现。未来,这项技术或许能在我们迈向AGI的过程中发挥关键作用。