DeepMind lança o SIMA 2: agente de IA no mundo virtual impulsionado pelo Gemini alcança avanços em raciocínio e aprendizado autônomo

November 15, 2025
Google DeepMind
6 min

Resumo

Em 13 de novembro de 2025 (horário da costa leste dos EUA), o Google DeepMind lançou o SIMA 2 (Scalable Instructable Multiworld Agent), um novo agente de inteligência artificial impulsionado pelo modelo Gemini. Este sistema não apenas executa comandos em mundos virtuais 3D, mas também possui capacidades de raciocínio, diálogo e autoaprendizagem, marcando um avanço significativo na pesquisa em Inteligência Artificial Geral (AGI). A taxa de conclusão de tarefas do SIMA 2 melhorou substancialmente em relação à versão anterior e consegue operar em ambientes de jogos nunca vistos durante seu treinamento, estabelecendo as bases para futuras tecnologias robóticas.


Avanço Técnico: Da Execução de Comandos à Tomada de Decisões por Raciocínio

A primeira versão do SIMA foi lançada em março de 2024 e conseguia executar mais de 600 habilidades básicas em diversos jogos comerciais, como "virar à esquerda", "subir escadas" e "abrir o mapa". O sistema operava observando a tela e utilizando teclado e mouse virtuais, imitando a forma como humanos jogam.

O SIMA 2 representa um salto qualitativo graças à integração do modelo Gemini 2.5 Flash-Lite. Segundo Joe Marino, cientista sênior de pesquisa do DeepMind, durante o lançamento à imprensa, o SIMA 2 apresenta uma "mudança e melhoria em degraus" em comparação com sua versão anterior. O sistema já não se limita a responder comandos, mas entende objetivos de alto nível, realiza raciocínios complexos e explica ao usuário suas intenções e os passos que pretende executar.

Nos testes, o desempenho do SIMA 2 superou amplamente o da versão anterior. Em tarefas complexas, o SIMA 1 obteve uma taxa de sucesso de apenas 31%, enquanto jogadores humanos alcançaram 71%. O SIMA 2 reduziu significativamente essa lacuna, aproximando-se do desempenho humano em várias tarefas avaliadas.

Capacidade de Generalização entre Ambientes

Uma das características mais impressionantes do SIMA 2 é sua excelente capacidade de generalização. O sistema opera não só nos oito jogos comerciais utilizados em seu treinamento — incluindo No Man’s Sky, Valheim e Goat Simulator 3 —, mas também consegue executar tarefas com sucesso em ambientes de jogos totalmente desconhecidos.

Em testes realizados com o jogo de sobrevivência viking ASKA e com a versão de pesquisa do Minecraft chamada MineDojo, o SIMA 2 demonstrou notável habilidade de aprendizado por transferência. Ele conseguiu aplicar o conceito de "minerar", aprendido em um jogo, ao cenário de "colheita" em outro, evidenciando uma capacidade crucial para o desenvolvimento de cognição semelhante à humana.

Mais impressionante ainda é que, quando combinado com outra pesquisa do DeepMind chamada Genie 3 — um sistema capaz de gerar mundos simulados em 3D a partir de uma única imagem ou instrução textual —, o SIMA 2 consegue rapidamente localizar-se, interpretar instruções e executar ações significativas em ambientes virtuais recém-gerados.

Mecanismo de Autoaperfeiçoamento

A inovação revolucionária do SIMA 2 reside em sua capacidade de autoaprendizagem. Diferentemente do SIMA 1, que dependia inteiramente de dados de jogos humanos para treinamento, o SIMA 2, após utilizar demonstrações humanas como linha de base no estágio inicial, transita para um modo autônomo de aprendizagem.

Nesse modo, outro modelo Gemini gera novas tarefas, enquanto um modelo independente de recompensa avalia o desempenho do agente. Com base nesses dados autorgerados, o SIMA 2 aprende com seus próprios erros e melhora continuamente por tentativa e erro, essencialmente ensinando-se novos comportamentos com feedback de IA, em vez de depender de feedback humano.

Esse ciclo de autoaperfeiçoamento abre caminho para o futuro da inteligência artificial, permitindo que agentes aprendam e evoluam com mínima intervenção humana, tornando-se aprendizes abertos no campo da IA incorporada.

Experiência Interativa Multimodal

O SIMA 2 suporta múltiplas formas de interação: usuários podem controlá-lo por meio de mensagens de texto, comandos de voz ou desenhando diretamente na tela do jogo. O sistema entende instruções em diferentes idiomas e até interpreta corretamente emojis para executar tarefas.

Jane Wang, cientista sênior de pesquisa do DeepMind, afirmou em entrevista ao TechCrunch que as aplicações do SIMA 2 vão muito além dos jogos. A equipe considera este trabalho um passo fundamental rumo a agentes mais genéricos e ao aprimoramento de robôs no mundo real.

Ponte para a Robótica

O DeepMind enxerga o SIMA 2 como peça-chave no desenvolvimento da próxima geração de agentes inteligentes, capazes de realizar tarefas abertas em ambientes mais complexos que navegadores web. A longo prazo, a tecnologia visa impulsionar sistemas robóticos no mundo físico.

Frederic Besse, engenheiro sênior de pesquisa, explicou durante o lançamento à imprensa que o SIMA 2 deve ser visto como um tomador de decisões de alto nível, e não como um controlador de movimentos de baixo nível. “Do ponto de vista da robótica, ele resolve ‘o quê fazer e por quê’, e não ‘como controlar o torque das articulações’.” Essa arquitetura em camadas reflete a abordagem atual de muitos laboratórios: uma camada superior de planejamento sobreposta a camadas inferiores de percepção e controle.

As habilidades aprendidas pelo SIMA 2 — navegação, uso de ferramentas e execução colaborativa de tarefas — são exatamente os blocos fundamentais necessários para futuros robôs companheiros no mundo real.

Limitações Atuais e Direções Futuras

Apesar dos avanços significativos, o SIMA 2 ainda enfrenta desafios. O sistema tem dificuldades em tarefas complexas de longo prazo que exigem extenso raciocínio em múltiplos passos e verificação contínua de objetivos. Além disso, sua memória interativa é relativamente curta, obrigando-o a operar com uma janela de contexto limitada para garantir interações de baixa latência. A execução precisa de operações de baixo nível por meio de teclado e mouse virtuais, bem como a compreensão visual robusta de cenas 3D complexas, permanecem como desafios abertos em toda a área de pesquisa.

Caminho de Desenvolvimento

O DeepMind enfatizou especialmente seu compromisso com o desenvolvimento responsável do SIMA 2. A equipe trabalhou em estreita colaboração com o grupo de Desenvolvimento e Inovação Responsáveis e lançou o SIMA 2 inicialmente como uma prévia de pesquisa limitada, concedendo acesso antecipado apenas a um pequeno número de acadêmicos e desenvolvedores de jogos. Essa abordagem visa coletar feedback crítico e perspectivas interdisciplinares, permitindo ao mesmo tempo aprofundar a compreensão dos riscos e das medidas adequadas de mitigação enquanto se explora esse novo domínio.

De acordo com informações oficiais, o relatório técnico completo será publicado em breve. O projeto contou com o apoio de diversas empresas desenvolvedoras de jogos, incluindo Coffee Stain, Hello Games e Thunderful Games, e foi treinado e avaliado em vários títulos comerciais, como No Man’s Sky, Valheim, Goat Simulator 3 e Teardown.

O lançamento do SIMA 2 marca uma transição crucial na pesquisa de IA, deslocando o foco de sistemas especializados para agentes genéricos, estabelecendo uma base sólida para o desenvolvimento futuro de assistentes digitais e robôs físicos inteligentes.