DeepMind发布SIMA 2:Gemini赋能的虚拟世界AI智能体实现推理与自主学习突破
摘要
Google DeepMind于2025年11月13日(美东时间)推出了SIMA 2(可扩展可指令多世界智能体),这是一款由Gemini模型驱动的新一代AI智能体。该系统不仅能在3D虚拟世界中执行指令,还具备推理、对话和自我学习能力,标志着通用人工智能(AGI)研究的重要进展。SIMA 2的任务完成率相比前代有显著提升,并能够在从未训练过的游戏环境中运作,为未来机器人技术奠定了基础。
技术突破:从指令跟随到推理决策
SIMA的首个版本于2024年3月推出,能够在多个商业游戏中执行超过600项基本技能,如"向左转"、"爬梯子"、"打开地图"等。该系统通过"观看"屏幕并使用虚拟键盘和鼠标进行操作,模拟人类玩家的游戏方式。
SIMA 2通过集成Gemini 2.5 Flash-Lite模型实现了质的飞跃。根据DeepMind高级研究科学家Joe Marino在媒体发布会上的介绍,SIMA 2相比前代在能力上实现了"阶跃式变化和改进"。该系统不再仅仅响应指令,而是能够理解高层次目标,进行复杂推理,并向用户说明其行动意图和执行步骤。
在测试中,SIMA 2的表现显著优于前代。针对复杂任务,SIMA 1的成功率仅为31%,而人类玩家达到71%。SIMA 2大幅缩小了这一差距,在多个评估任务中的表现接近人类水平。
跨环境泛化能力
SIMA 2最引人注目的特性之一是其出色的泛化能力。该系统不仅能在训练过的8款商业游戏(包括《无人深空》、《英灵神殿》、《山羊模拟器3》等)中运作,还能在从未见过的游戏环境中成功执行任务。
在对维京生存游戏ASKA和Minecraft研究实现版本MineDojo的测试中,SIMA 2展现了强大的迁移学习能力。它能将在一个游戏中学到的"采矿"概念应用到另一个游戏的"收获"场景中,这种概念迁移能力是实现类人认知的关键基础。
更令人印象深刻的是,当SIMA 2与DeepMind另一项研究成果Genie 3(能够根据单张图片或文本提示生成实时3D模拟世界的系统)结合时,它能够在全新生成的虚拟环境中快速定位、理解指令并执行有意义的行动。
自我改进机制
SIMA 2的革命性创新在于其自我学习能力。与完全依赖人类游戏数据训练的SIMA 1不同,SIMA 2在初始训练阶段使用人类示范作为基线后,能够转向自主学习模式。
该系统通过让另一个Gemini模型创建新任务,由独立的奖励模型对智能体的表现进行评分。利用这些自生成的经验数据,SIMA 2能够从自身错误中学习,并通过试错不断改进,本质上是在AI反馈的引导下自我教学新行为,而非依赖人类反馈。
这种自我改进循环为未来人工智能的发展铺平了道路,使智能体能够在最小人类干预的情况下学习和成长,成为具身AI领域的开放式学习者。
多模态交互体验
SIMA 2支持多种交互方式,用户可以通过文本聊天、语音对话或在游戏屏幕上绘图来控制智能体。系统能够理解不同语言的指令,甚至能正确解释表情符号的含义来执行任务。
DeepMind高级研究科学家Jane Wang在接受TechCrunch采访时表示,SIMA 2的应用远超游戏领域。研究团队认为,这项工作是实现更通用智能体和改进现实世界机器人的重要一步。
通往机器人技术的桥梁
DeepMind将SIMA 2视为开发下一代智能体的关键,这些智能体能够在比网页浏览器更复杂的环境中执行开放式任务。长远来看,该技术旨在驱动现实世界的机器人系统。
高级研究工程师Frederic Besse在媒体发布会上解释说,SIMA 2应被视为高级决策者而非底层运动控制器。"从机器人学角度思考,它解决的是'做什么以及为什么',而不是'如何控制关节扭矩'。"这种分层反映了当前许多实验室构建系统的方式:规划层在上,感知和控制层在下。
SIMA 2学习的技能——导航、工具使用和协作任务执行——正是未来现实世界机器人伴侣所需的基本构建模块。
当前局限与未来方向
尽管取得显著进展,SIMA 2仍面临一些挑战。该系统在需要大量多步推理和目标验证的长期复杂任务上仍有困难。此外,它的交互记忆相对较短,必须使用有限的上下文窗口来实现低延迟交互。通过虚拟键盘和鼠标界面执行精确的底层操作,以及实现复杂3D场景的稳健视觉理解,仍然是整个领域持续探索的开放性挑战。
开发路径
DeepMind特别强调了负责任开发SIMA 2的承诺。该团队与负责任发展与创新团队密切合作,将SIMA 2作为限量研究预览版发布,仅向少数学者和游戏开发者提供早期访问权限。这种方法旨在收集关键反馈和跨学科视角,在探索这一新领域的同时,继续建立对风险及其适当缓解措施的理解。
根据官方信息,完整的技术报告将于近期发布。该项目获得了包括Coffee Stain、Hello Games、Thunderful Games等多家游戏开发商的合作支持,并在包括《无人深空》、《英灵神殿》、《山羊模拟器3》、《Teardown》等多款商业游戏中进行了训练和评估。
SIMA 2的推出标志着AI研究从专业化系统向通用智能体的重要转变,为未来数字助手和物理机器人的智能化发展奠定了坚实基础。