智能革命:谷歌DeepMind雙模型AI系統賦予機器人推理與搜尋能力
摘要
Google DeepMind 近日推出了全新的 Gemini Robotics 1.5 和 Gemini Robotics-ER 1.5 模型,標誌著 AI 技術首次真正走向實體機器人世界。這兩款模型採用雙重架構設計,能讓機器人不僅能執行指令,更能進行推理、規劃和主動使用工具,實現更高級的物理世界互動能力。
突破性雙模型架構
Gemini Robotics-ER 1.5 和 Gemini Robotics 1.5 採用了創新的雙重架構設計,兩者協同工作形成一個強大的機器人 AI 系統。Gemini Robotics-ER 1.5 作為「高級大腦」負責規劃和物理空間決策,而 Gemini Robotics 1.5 則將視覺、語言理解轉化為具體行動。這種架構使機器人能夠執行複雜的多步驟任務,如根據網上搜尋到的當地回收規則對垃圾進行分類,或根據天氣預報打包行李。
從反應到推理的重大轉變
Google DeepMind 機器人部門負責人 Carolina Parada 指出,新系統讓機器能夠「提前思考多個步驟」,而不只是專注於單一步驟。與只能執行簡單指令的上一代產品不同,新系統讓機器人的行為更加接近人類思考方式——先規劃再行動。
跨機器人學習能力
這次更新帶來的另一項革命性變化是「跨機器人學習」功能。DeepMind 展示了雙臂 ALOHA2 機器人學到的技能可以無需額外設定就能應用於 Franka 機器人或 Apptronik 的 Apollo 人形機器人。這意味著同一套模型可以控制不同類型的機器人並傳遞經驗,大幅加速了機器人技術的發展速度。
智能網路搜尋與工具使用
Gemini Robotics-ER 1.5 能夠評估複雜挑戰,原生呼叫工具(如 Google 搜尋)查找資訊,並創建詳細的分步計畫來克服問題。這使機器人能夠像人類一樣查找資訊並應用於實際任務,極大擴展了機器人的能力範圍。
安全與透明度提升
DeepMind 在開發過程中將安全置於核心位置。兩款模型都配備了保障措施和可解釋性功能,使機器人行為更可預測和可解釋。Google 還發布了 ASIMOV 基準測試的升級版,用於評估和改進語義安全性,其中 Gemini Robotics-ER 1.5 在安全性評估中表現出了最先進的性能。
開發者可用性
此次更新已對開發者開放:Gemini Robotics-ER 1.5 可透過 Google AI Studio 中的 Gemini API 進行測試,而 Gemini Robotics 1.5 目前僅向特定合作夥伴開放。這將促進更廣泛的機器人技術創新和應用開發。
邁向通用人工智慧的重要里程碑
Google DeepMind 將此次發布描述為朝著解決物理世界中的通用人工智慧 (AGI) 邁出的重要一步。透過引入主動性能力,Google 正在超越僅響應命令的模型,創建能夠真正推理、規劃、主動使用工具和泛化的系統。
產業影響與未來展望
這項突破性技術有望重塑多個產業。在醫療領域,輔助機器人可以根據不同患者需求提供幫助;在家庭環境中,它們可以成為更智能的個人助理。雖然機器人技術仍處於早期階段,但此次發布表明,未來不僅是關於更智能的 AI,而是關於能夠與我們一起生活和行動的 AI。
隨著 Google DeepMind 繼續推進機器人技術與人工智慧的融合,我們可以期待更多創新應用出現,進一步縮小虛擬智能與物理世界之間的差距。