智能革命:谷歌DeepMind双模型AI系统赋予机器人推理与搜索能力

2025-09-28
GOOGLE
4 min

摘要

谷歌DeepMind近日推出了全新的Gemini Robotics 1.5和Gemini Robotics-ER 1.5模型,标志着AI技术首次真正走向实体机器人世界。这两款模型采用双重架构设计,能让机器人不仅能执行指令,更能进行推理、规划和主动使用工具,实现更高级的物理世界交互能力。

突破性双模型架构

Gemini Robotics-ER 1.5和Gemini Robotics 1.5采用了创新的双重架构设计,两者协同工作形成一个强大的机器人AI系统。Gemini Robotics-ER 1.5作为"高级大脑"负责规划和物理空间决策,而Gemini Robotics 1.5则将视觉、语言理解转化为具体行动。这种架构使机器人能够执行复杂的多步骤任务,如根据网上搜索到的当地回收规则对垃圾进行分类,或根据天气预报打包行李。

从反应到推理的重大转变

谷歌DeepMind机器人部门负责人Carolina Parada指出,新系统让机器能够"提前思考多个步骤",而不只是专注于单一步骤。与只能执行简单指令的上一代产品不同,新系统让机器人的行为更加接近人类思考方式——先规划再行动。

跨机器人学习能力

这次更新带来的另一项革命性变化是"跨机器人学习"功能。DeepMind展示了双臂ALOHA2机器人学到的技能可以无需额外设置就能应用于Franka机器人或Apptronik的Apollo人形机器人。这意味着同一套模型可以控制不同类型的机器人并传递经验,大幅加速了机器人技术的发展速度。

智能网络搜索与工具使用

Gemini Robotics-ER 1.5能够评估复杂挑战,原生调用工具(如谷歌搜索)查找信息,并创建详细的分步计划来克服问题。这使机器人能够像人类一样查找信息并应用于实际任务,极大扩展了机器人的能力范围。

安全与透明度提升

DeepMind在开发过程中将安全置于核心位置。两款模型都配备了保障措施和可解释性功能,使机器人行为更可预测和可解释。谷歌还发布了ASIMOV基准测试的升级版,用于评估和改进语义安全性,其中Gemini Robotics-ER 1.5在安全性评估中表现出了最先进的性能。

开发者可用性

此次更新已对开发者开放:Gemini Robotics-ER 1.5可通过Google AI Studio中的Gemini API进行测试,而Gemini Robotics 1.5目前仅向特定合作伙伴开放。这将促进更广泛的机器人技术创新和应用开发。

迈向通用人工智能的重要里程碑

谷歌DeepMind将此次发布描述为朝着解决物理世界中的通用人工智能(AGI)迈出的重要一步。通过引入主动性能力,谷歌正在超越仅响应命令的模型,创建能够真正推理、规划、主动使用工具和泛化的系统。

行业影响与未来展望

这一突破性技术有望重塑多个行业。在医疗领域,辅助机器人可以根据不同患者需求提供帮助;在家庭环境中,它们可以成为更智能的个人助理。虽然机器人技术仍处于早期阶段,但此次发布表明,未来不仅是关于更智能的AI,而是关于能够与我们一起生活和行动的AI。

随着谷歌DeepMind继续推进机器人技术与人工智能的融合,我们可以期待更多创新应用出现,进一步缩小虚拟智能与物理世界之间的差距。