智能革命：谷歌DeepMind双模型AI系统赋予机器人推理与搜索能力

2025-09-28

GOOGLE

4 min

摘要

谷歌DeepMind近日推出了全新的Gemini Robotics 1.5和Gemini Robotics-ER 1.5模型，标志着AI技术首次真正走向实体机器人世界。这两款模型采用双重架构设计，能让机器人不仅能执行指令，更能进行推理、规划和主动使用工具，实现更高级的物理世界交互能力。

突破性双模型架构

Gemini Robotics-ER 1.5和Gemini Robotics 1.5采用了创新的双重架构设计，两者协同工作形成一个强大的机器人AI系统。Gemini Robotics-ER 1.5作为"高级大脑"负责规划和物理空间决策，而Gemini Robotics 1.5则将视觉、语言理解转化为具体行动。这种架构使机器人能够执行复杂的多步骤任务，如根据网上搜索到的当地回收规则对垃圾进行分类，或根据天气预报打包行李。

从反应到推理的重大转变

谷歌DeepMind机器人部门负责人Carolina Parada指出，新系统让机器能够"提前思考多个步骤"，而不只是专注于单一步骤。与只能执行简单指令的上一代产品不同，新系统让机器人的行为更加接近人类思考方式——先规划再行动。

跨机器人学习能力

这次更新带来的另一项革命性变化是"跨机器人学习"功能。DeepMind展示了双臂ALOHA2机器人学到的技能可以无需额外设置就能应用于Franka机器人或Apptronik的Apollo人形机器人。这意味着同一套模型可以控制不同类型的机器人并传递经验，大幅加速了机器人技术的发展速度。

智能网络搜索与工具使用

Gemini Robotics-ER 1.5能够评估复杂挑战，原生调用工具（如谷歌搜索）查找信息，并创建详细的分步计划来克服问题。这使机器人能够像人类一样查找信息并应用于实际任务，极大扩展了机器人的能力范围。

安全与透明度提升

DeepMind在开发过程中将安全置于核心位置。两款模型都配备了保障措施和可解释性功能，使机器人行为更可预测和可解释。谷歌还发布了ASIMOV基准测试的升级版，用于评估和改进语义安全性，其中Gemini Robotics-ER 1.5在安全性评估中表现出了最先进的性能。

开发者可用性

此次更新已对开发者开放：Gemini Robotics-ER 1.5可通过Google AI Studio中的Gemini API进行测试，而Gemini Robotics 1.5目前仅向特定合作伙伴开放。这将促进更广泛的机器人技术创新和应用开发。

迈向通用人工智能的重要里程碑

谷歌DeepMind将此次发布描述为朝着解决物理世界中的通用人工智能(AGI)迈出的重要一步。通过引入主动性能力，谷歌正在超越仅响应命令的模型，创建能够真正推理、规划、主动使用工具和泛化的系统。

行业影响与未来展望

这一突破性技术有望重塑多个行业。在医疗领域，辅助机器人可以根据不同患者需求提供帮助；在家庭环境中，它们可以成为更智能的个人助理。虽然机器人技术仍处于早期阶段，但此次发布表明，未来不仅是关于更智能的AI，而是关于能够与我们一起生活和行动的AI。

随着谷歌DeepMind继续推进机器人技术与人工智能的融合，我们可以期待更多创新应用出现，进一步缩小虚拟智能与物理世界之间的差距。