DeepMind, SIMA 2 출시: Gemini 기반 가상 세계 AI 에이전트, 추론 및 자율 학습에서 돌파구 마련
요약
Google DeepMind는 2025년 11월 13일(미국 동부 시간)에 SIMA 2(Scalable Instructable Multiworld Agent, 확장 가능하고 지시 가능한 다중 세계 에이전트)를 출시했다. 이는 Gemini 모델을 기반으로 하는 차세대 AI 에이전트로, 3D 가상 세계에서 명령을 수행할 뿐만 아니라 추론, 대화 및 자기 학습 능력을 갖추고 있어 일반 인공지능(AGI) 연구의 중요한 진전을 의미한다. SIMA 2는 이전 세대 대비 작업 완수율이 크게 향상되었으며, 훈련한 적 없는 게임 환경에서도 작동할 수 있어 향후 로봇 기술의 기반을 마련했다.
기술적 돌파구: 명령 따르기에서 추론 기반 의사결정으로
SIMA의 첫 번째 버전은 2024년 3월에 출시되어 여러 상용 게임 내에서 "왼쪽으로 돌기", "사다리 오르기", "지도 열기" 등 600개 이상의 기본 기술을 수행할 수 있었다. 이 시스템은 화면을 "관찰"하면서 가상 키보드와 마우스를 사용해 인간 플레이어와 유사한 방식으로 게임을 조작했다.
SIMA 2는 Gemini 2.5 Flash-Lite 모델을 통합함으로써 질적인 도약을 이루었다. DeepMind의 고급 연구 과학자인 Joe Marino는 언론 발표회에서 SIMA 2가 전작 대비 "단계적 변화와 개선"을 이뤘다고 설명했다. 이제 이 시스템은 단순히 명령에 반응하는 것을 넘어 고차원적 목표를 이해하고 복잡한 추론을 수행하며, 자신의 행동 의도와 실행 단계를 사용자에게 설명할 수 있다.
테스트 결과, SIMA 2는 전작보다 훨씬 뛰어난 성과를 보였다. 복잡한 작업에 대해 SIMA 1의 성공률은 31%에 불과했으나, 인간 플레이어는 71%를 기록했다. SIMA 2는 이 격차를 크게 줄였으며, 다양한 평가 작업에서 인간 수준에 근접한 성능을 보여주었다.
환경 간 일반화 능력
SIMA 2의 가장 주목할 만한 특징 중 하나는 뛰어난 일반화(generalization) 능력이다. 이 시스템은 훈련된 8개의 상용 게임(《노 매니즈 스카이(No Man's Sky)》, 《발하임(Valheim)》, 《고트 심(Goat Simulator 3)》 등 포함)뿐 아니라, 전혀 접해보지 못한 게임 환경에서도 성공적으로 작업을 수행할 수 있다.
바이킹 생존 게임 《아스카(ASKA)》와 마인크래프트(Minecraft) 기반 연구용 구현체인 《마인두조(MineDojo)》를 대상으로 한 테스트에서 SIMA 2는 강력한 전이 학습(transfer learning) 능력을 입증했다. 예를 들어 한 게임에서 습득한 "채광(mining)" 개념을 다른 게임의 "수확(harvesting)" 상황에 적용할 수 있었는데, 이러한 개념 전이 능력은 인간과 유사한 인지 능력을 실현하기 위한 핵심 기반이다.
더욱 인상적인 점은 SIMA 2가 DeepMind의 또 다른 연구 성과인 Genie 3(단일 이미지나 텍스트 프롬프트로부터 실시간 3D 시뮬레이션 세계를 생성할 수 있는 시스템)와 결합될 때, 새로 생성된 가상 환경 내에서 신속하게 위치를 파악하고 명령을 이해하며 의미 있는 행동을 수행할 수 있다는 것이다.
자기 개선 메커니즘
SIMA 2의 혁신적인 특징은 자기 학습(self-learning) 능력이다. SIMA 1이 인간 게임 데이터에 전적으로 의존해 훈련된 것과 달리, SIMA 2는 초기 훈련 단계에서 인간의 시범을 기준선으로 활용한 후 자율 학습 모드로 전환할 수 있다.
이 시스템은 또 다른 Gemini 모델이 새 작업을 생성하면, 독립적인 보상 모델(reward model)이 에이전트의 수행 결과를 평가한다. 이렇게 자동 생성된 경험 데이터를 활용해 SIMA 2는 자신의 실수로부터 학습하고 시행착오를 통해 지속적으로 개선된다. 본질적으로 인간의 피드백이 아닌 AI 자체의 피드백을 통해 새로운 행동을 스스로 가르치는 셈이다.
이러한 자기 개선 루프는 향후 인공지능 발전의 길을 열어주며, 최소한의 인간 개입으로도 학습하고 성장할 수 있는 구현형 AI(embodied AI) 분야의 오픈 엔드 학습자(open-ended learner)가 될 가능성을 제시한다.
멀티모달 상호작용 경험
SIMA 2는 다양한 상호작용 방식을 지원한다. 사용자는 텍스트 채팅, 음성 대화 또는 게임 화면 위에 직접 그리기를 통해 에이전트를 제어할 수 있다. 시스템은 다양한 언어의 명령을 이해할 수 있으며, 심지어 이모지의 의미를 정확히 해석하여 작업을 수행할 수도 있다.
DeepMind의 고급 연구 과학자 Jane Wang은 TechCrunch와의 인터뷰에서 SIMA 2의 응용 범위가 게임 영역을 훨씬 넘어서며, 이 연구는 더 범용적인 에이전트 개발과 현실 세계 로봇 기술의 향상에 중요한 한 걸음이라고 강조했다.
로봇 기술로 가는 다리
DeepMind는 SIMA 2를 차세대 에이전트 개발의 핵심으로 간주하고 있으며, 이는 웹 브라우저보다 훨씬 복잡한 환경에서 개방형(open-ended) 작업을 수행할 수 있게 해줄 것이다. 장기적으로 이 기술은 실제 세계의 로봇 시스템을 구동하는 것을 목표로 한다.
고급 연구 엔지니어 Frederic Besse는 언론 발표회에서 SIMA 2를 하위 운동 제어기(low-level motor controller)가 아닌 고차원 의사결정자(high-level decision-maker)로 이해해야 한다고 설명했다. “로봇 공학 관점에서 보면, 이 시스템은 ‘무엇을 할 것인지, 왜 그것을 해야 하는지’를 해결하지, ‘관절 토크를 어떻게 제어할 것인가’ 같은 문제는 다루지 않습니다.” 이러한 계층 구조는 현재 많은 연구실에서 시스템을 구성하는 방식—즉, 상위 계획(planning) 계층과 하위 인지·제어(perception and control) 계층—을 반영한다.
SIMA 2가 학습한 기술들—탐색, 도구 사용, 협업 작업 수행—은 향후 현실 세계에서 인간과 함께 살아갈 로봇 파트너에게 필요한 핵심 구성 요소들이다.
현재의 한계와 향후 방향
눈에 띄는 진전에도 불구하고 SIMA 2는 여전히 몇 가지 과제에 직면해 있다. 특히 다단계 추론과 목표 검증이 많이 요구되는 장기적이고 복잡한 작업에서는 어려움을 겪고 있다. 또한 상호작용 메모리가 비교적 짧아 낮은 지연 시간(interaction latency)을 유지하기 위해 제한된 문맥 창(context window)만을 사용해야 한다. 가상 키보드와 마우스 인터페이스를 통해 정밀한 저수준(low-level) 조작을 수행하는 것과 복잡한 3D 장면에 대한 견고한 시각적 이해를 달성하는 것은 여전히 해당 분야 전체가 지속적으로 탐구해야 할 열린 과제이다.
개발 경로
DeepMind는 SIMA 2를 책임감 있게 개발하겠다는 약속을 특히 강조했다. 팀은 책임 있는 개발 및 혁신(RDI, Responsible Development and Innovation) 팀과 긴밀히 협력하여 SIMA 2를 제한된 연구 사전 공개(limited research preview) 버전으로 출시했으며, 소수의 학자 및 게임 개발자들에게만 초기 접근 권한을 제공했다. 이러한 접근 방식은 새로운 영역을 탐색하면서 핵심 피드백과 다학제적 관점을 수집하고, 위험 요소와 그에 대한 적절한 완화책을 계속 이해해 나가기 위한 것이다.
공식 정보에 따르면, 완전한 기술 보고서가 곧 발표될 예정이다. 이 프로젝트는 Coffee Stain, Hello Games, Thunderful Games 등 여러 게임 개발사의 협력을 받아 《노 매니즈 스카이》, 《발하임》, 《고트 심 3》, 《티어다운(Teardown)》 등 다양한 상용 게임에서 훈련 및 평가되었다.
SIMA 2의 출시는 AI 연구가 특정 작업에 특화된 시스템에서 범용적 에이전트로 전환하는 중요한 전환점을 의미하며, 향후 디지털 어시스턴트와 물리적 로봇의 지능화 발전을 위한 견고한 기반을 마련했다.