Gemini Robotics-ER 1.6 是什么?
Gemini Robotics-ER 1.6 是谷歌DeepMind于2026年4月15日正式推出的专为物理环境中自主机器人设计的具身推理AI模型。作为 Gemini Robotics-ER 系列的重大升级版本,1.6版本聚焦于“具身推理”,使机器人能够解读视觉输入、规划任务并判断任务是否完成,标志着机器人从指令跟随型系统向具备上下文感知决策能力的系统转变。
Gemini Robotics-ER 1.6 的主要功能
- 具身推理能力:
- 任务规划与决策:作为机器人的高层推理模型,Gemini Robotics-ER 1.6 负责任务规划、工具调用和成功检测,不直接操控机械动作。
- 视觉与空间理解:显著提升物体识别、计数和空间关系判断的准确度。能够辨认工作台上散落的工具,准确计数,并能用手指向物体作为推理过程的一部分。
- 多视角任务完成验证:融合来自不同摄像头的实时画面,形成连贯的场景理解,从多个角度交叉验证任务结果,避免单一视角的盲区。
- 自主仪表读取:
- 工业仪表识别:新增仪表读数能力,使机器人能够读取复杂的压力表、液位计和数字显示屏等设备。通过结合视觉推理与代码执行,机器人可缩放图像、识别指针与刻度标记,并以极高精度计算数值。
- 自动相机畸变校正:模型能自动编写代码校正相机畸变(如广角镜头的桶状或枕状效应),以亚毫米精度计算刻度标记,无需大量人工重新编程即可适配不同相机设置。
- 安全能力升级:
- 物理约束理解:模型能够理解执行指令时的物理约束,明确避开液体、重量超过 20 公斤的物体等不安全物品。
- 风险识别与预防:在视频中检测人类受伤风险的能力较前代提升 10%,强化了机器人规划与感知的安全边界,为仓储物流、医疗辅助等场景带来更高合规性与更低事故率。
Gemini Robotics-ER 1.6 的使用场景
- 工业自动化:
- 设备巡检:在制造业、石油天然气、炼油厂和能源设施等高风险环境中,机器人可自主读取传统模拟仪表,实现存量工厂的自主化升级。
- 质量检测:通过高精度视觉推理,机器人可检测产品缺陷,确保生产质量。
- 仓储物流:
- 货物搬运与分拣:机器人可理解仓库环境,自主规划搬运路径,避免碰撞不安全物品,提高物流效率。
- 库存盘点:通过物体识别与计数功能,机器人可自主完成库存盘点任务。
- 医疗辅助:
- 患者护理:机器人可协助医护人员完成患者搬运、药物配送等任务,减少人力负担,降低交叉感染风险。
- 手术辅助:在手术室中,机器人可自主读取医疗设备仪表,为医生提供实时数据支持。
如何使用Gemini Robotics-ER 1.6?
- 开发者接入:
- Gemini Robotics-ER 1.6 已通过 Gemini API 和 Google AI Studio 向开发者开放。开发者可通过调用 API,将模型集成到自己的机器人系统中。
- DeepMind 还发布了 Colab 笔记本,提供具身推理任务的配置示例和提示指南,帮助开发者快速上手。
- 机器人集成:
- 波士顿动力已将 Gemini Robotics-ER 1.6 集成到其 Spot 四足机器人的 AIVI-Learning 平台中。借助 Gemini 的推理能力,Spot 现在可以自动执行 5S 合规审计、液位测量、托盘计数和地面积水检测等复杂视觉巡检任务。
- 集成后的系统支持“零停机升级”,DeepMind 在云端持续优化模型,客户的巡检精度会自动提升,无需手动更新或安排停机。
- 自定义功能开发:
- 开发者可根据具体应用场景,自定义模型的功能和行为。例如,开发特定的仪表读取算法、任务规划策略或安全约束规则。
产品对比
- 与前代版本对比:
- Gemini Robotics-ER 1.5:1.6 版本在空间与物理推理能力上全面超越 1.5 版本,尤其是在点位定位、计数和任务成功判断等方面。仪表读取准确率从 1.5 版本的 23% 跃升至 93%。
- Gemini 3.0 Flash:1.6 版本在视觉与空间理解、任务规划以及任务完成判断等方面均优于 Gemini 3.0 Flash。在仪表读数任务上,1.6 版本的成功率达到 93%,而 Gemini 3.0 Flash 仅为 67%。
- 与其他机器人模型对比:
- 阿里巴巴 RynnBrain:虽然 RynnBrain 在部分基准测试中表现良好,但 Gemini Robotics-ER 1.6 在具身推理、工业仪表识别和安全能力等方面具有显著优势。尤其是在仪表读取任务上,1.6 版本的成功率远高于其他模型。
- 其他开源机器人模型:与开源模型相比,Gemini Robotics-ER 1.6 提供了更全面的功能支持和更高的性能表现。其原生调用 Google Search、VLA 等功能,使机器人能够获取更丰富的信息支持,提高任务执行的准确性和效率。