什么是 Project Genie?
Project Genie 是 Google(由 Google DeepMind 和 Google Labs 推出)的一款 实验性 AI 世界模型原型产品,目前作为研究原型对 Google AI Ultra 订阅用户开放。它允许用户通过自然语言提示和图片生成具有实时探索能力的可交互虚拟世界。
与传统生成式 AI 不同,Project Genie 提供了一个 可动态探索的三维环境,可实现第一人称/第三人称视角的漫游互动。
Project Genie的主要功能
1. 世界草图绘制(World Sketching)
- 用户可通过自然语言描述或上传参考图像来创建虚拟场景。
- 系统可将文本与图像提示结合,生成具有空间结构的初步世界模型。
- 利用 Nano Banana Pro 渲染预览,使用户在进入世界前调整细节与视角(第一/第三人称等)。
2. 世界探索(World Exploration)
- 用户可以在生成的世界中自由移动。
- 引擎 实时生成前方场景,支持步行、飞行、驾驶等多种方式。
- 环境的呈现会随着用户操作即时渲染,不需要预先创建完整世界图。
3. 世界重混(World Remixing)
- 用户可以在创意画廊浏览他人作品,选择进行 remix。
- 通过修改原提示词,生成新的探索场景版本。
- 支持随机生成新世界或重新编辑生成逻辑。
4. 视频导出与分享
- 探索完成后,可将漫游过程导出为视频文件保存或分享。
Project Genie的核心技术
Project Genie 背后融合了多项 Google AI 最新技术:
1、Genie 3 世界模型
- 是核心生成引擎,负责将提示词和图像转化为可交互场景。
- 支持实时推理和动态画面生成。
2、 Nano Banana Pro
- 为高级视觉预览提供支持,可在生成前预演世界草图。
- 允许用户细化场景元素与布局。
3、 Gemini 技术栈
- 提供基础语言理解与多模态处理能力(文本↔图像↔场景)。
- 负责高层语义推理与场景结构规划。
目前,包括物理一致性、物体行为逻辑等方面仍属早期探索,会继续优化。
Project Genie的使用场景
1、创意娱乐与游戏原型
- 游戏设计原型场景快速迭代。
- 玩家可创造个性世界并实时探索。
2、影视与动画制作构思
- 导演/艺术家预演场景布局与视觉风格。
- 降低前期美术制作成本。
3、建筑和空间设计
- 建筑师可让客户在未建成前沉浸式体验设计方案。
- 空间布局与灯光效果更直观可感。
4、教育与培训
- 教师可创建历史场景或科学模拟,如古文明、科研实验虚拟探险。
- 学生可身临其境学习。
5、AI 研究与机器人测试
- 生成多样环境供智能体训练与验证。
- 可以降低真实场景构建成本。
如何使用Project Genie?
1. 注册与访问
- 访问 Project Genie 官方地址(如 labs.google/projectgenie)。
- 当前需拥有 Google AI Ultra 订阅权限(美国地区先行开放)。
2. 创建世界
- 输入自然语言提示(如:“未来城市夜景”)或上传参考图。
- 使用 Nano Banana Pro 生成草图预览。
- 根据需要调整提示与参数。
3. 选择视角
- 在预览界面选择第一人称或第三人称。
- 确定后进入 3D 探索模式。
4. 探索与控制
- 使用键盘/鼠标/手柄进行移动与视角调整。
- 在探索中可随时修改镜头方向。
5. Remix 与保存
- 探索后可 remix 画廊中的世界或自己创建的新版本。
- 导出探索视频或分享生成内容。