谷歌发布的世界模型 Genie 2 有以下亮点和不足: 亮点
强大的 3D 世界生成能力:只需单张图片和文字描述,就能构建出丰富多彩的 3D 世界,并且可以持续一分钟,让用户有沉浸式体验。比如根据一张海边的图片和相关文字描述,就能生成一个包含海边环境和奇幻生物乐园的虚拟世界。 出色的模拟效果:经过大量视频训练,在模拟物体交互、动画、照明、物理现象和反射效果等方面表现卓越,生成的场景画质直逼 3A 级游戏。如在中世纪城堡场景中,火把的光影摇曳,骑士与巨龙战斗时的动作流畅自然,金属铠甲的反射效果逼真。 智能交互功能:能准确识别键盘按键操作,让角色在虚拟世界中合理移动。按下箭头键时,它能明白是要移动主角而非场景中的其他物体,增强了用户与虚拟世界的互动乐趣。 长视野记忆能力:即使某些区域暂时不在视野范围内,它也能记住其状态,当再次可见时准确还原,保证了虚拟世界的一致性。例如在探索神秘森林时,玩家离开某个区域后再返回,之前未采摘的果实依然在原地,树木的生长状态也保持不变。 多样化的视角选择:可以创建第一人称视角、等距视角或第三人称驾驶视角等不同的视角,满足不同用户在不同场景下的需求。 助力智能体训练与评估:为训练和评估具身智能体提供了丰富多样的环境,研究人员可以生成智能体在训练中未见过的评估任务,有助于推动具身智能的发展。 快速原型设计:使快速原型设计各种交互体验变得容易,让研究人员和开发者能够快速尝试新的环境来训练和测试具身 AI 智能体,加速研究进程,降低开发成本和时间。 不足
游戏趣味性受限:目前其创建的游戏每隔一分钟左右就会抹去进度,严重影响了游戏的连贯性和趣味性,导致其在娱乐领域的直接应用受限,暂时只能被定位为研究与创意工具。 世界稳定性有限:虽然最长可维持 60 秒的世界,但通常示例在 10 到 20 秒之间,随着时间的推移,可能会出现伪影,图像质量也趋向于下降,这在一定程度上影响了用户的连续体验和其在长时间交互场景下的应用价值。 角色模型一致性欠佳:玩家角色模型在运动过程中可能会出现扭曲、模糊等情况,导致角色形象不够稳定和连贯,影响了整体的视觉效果和沉浸感。 生成内容的独特性不足:生成的内容在不同场景下存在既视感,如赛车、沙漠和骑马场景等很容易让人联想到一些现有的知名游戏,缺乏足够的创新性和独特性,可能会限制其在一些需要高度原创性内容的场景中的应用。 训练数据不透明:DeepMind 未详细披露 Genie 2 的训练数据来源,业界猜测可能涉及大量热门游戏记录,这引发了外界对知识产权侵犯的担忧,其数据的安全性、合法性以及是否符合道德规范等问题都有待进一步明确。 应用范围相对较窄:目前主要还是作为研究和创意工具,适用于快速原型设计和 AI 智能体评估等特定领域,在实际的消费级应用场景中,如直接面向玩家的游戏等,还存在一定的距离,需要进一步优化和拓展其功能及应用场景,以满足更广泛用户的需求。