Um framework de IA generativa escalável para pesquisadores e desenvolvedores, focado em grandes modelos de linguagem, multimodalidade e IA de voz (reconhecimento automático de fala e texto para fala)

Apache-2.0PythonNeMoNVIDIA 15.3k Last Updated: August 07, 2025

Apresentação Detalhada do Projeto NVIDIA NeMo

Visão Geral do Projeto

O NVIDIA NeMo Framework é um framework de IA generativa escalável e nativo da nuvem, construído para pesquisadores e desenvolvedores PyTorch, com foco em modelos de linguagem grandes (LLMs), modelos multimodais (MMs), reconhecimento automático de fala (ASR), texto para fala (TTS) e visão computacional (CV). O framework foi projetado para ajudar os usuários a criar, personalizar e implantar novos modelos de IA generativa de forma eficiente, aproveitando o código existente e os checkpoints de modelos pré-treinados.

Principais Características

Atualização Significativa do NeMo 2.0

O NeMo 2.0 introduz várias melhorias importantes em relação ao seu antecessor, NeMo 1.0, aprimorando a flexibilidade, o desempenho e a escalabilidade:

  • Configuração Baseada em Python - Transição de arquivos YAML para configuração baseada em Python, oferecendo maior flexibilidade e controle
  • Abstrações Modulares - Adoção de abstrações modulares do PyTorch Lightning, simplificando a adaptação e o processo de experimentação
  • Escalabilidade - Expansão perfeita para experimentos em larga escala com milhares de GPUs usando NeMo-Run

Vantagens da Arquitetura Técnica

Todos os modelos NeMo são treinados usando Lightning, e o treinamento pode ser escalado automaticamente para milhares de GPUs. O framework integra tecnologias de treinamento distribuído de ponta, incluindo:

  • Paralelismo de Tensor (TP)
  • Paralelismo de Pipeline (PP)
  • Paralelismo de Dados Totalmente Fragmentado (FSDP)
  • Mistura de Especialistas (MoE)
  • Treinamento de Precisão Mista (suporte para BFloat16 e FP8)

LLMs e MMs baseados em Transformer utilizam o NVIDIA Transformer Engine para treinamento FP8 em GPUs NVIDIA Hopper, ao mesmo tempo em que aproveitam o NVIDIA Megatron Core para expandir o treinamento de modelos Transformer.

Principais Áreas de Aplicação

1. Modelos de Linguagem Grandes e Modelos Multimodais

Atualizações de Recursos Mais Recentes

  • Suporte AutoModel - O recurso mais recente do NeMo Framework, AutoModel, suporta modelos 🤗Hugging Face, com a versão 25.02 focada em AutoModelForCausalLM na categoria de geração de texto
  • Suporte Blackwell - O NeMo Framework adicionou suporte Blackwell, com a versão 25.02 focada na paridade de recursos do B200

Técnicas de Alinhamento de Modelos

Os NeMo LLMs podem ser alinhados usando métodos de última geração, como SteerLM, Otimização Direta de Preferência (DPO) e Aprendizado por Reforço com Feedback Humano (RLHF). Além do ajuste fino supervisionado (SFT), o NeMo também oferece suporte às mais recentes técnicas de ajuste fino com eficiência de parâmetros (PEFT), como LoRA, P-Tuning, Adapters e IA3.

2. Modelos Fundamentais do Mundo Cosmos

A plataforma NVIDIA Cosmos acelera o desenvolvimento de modelos mundiais para sistemas de IA física. Construído com base em CUDA, o Cosmos combina modelos fundamentais mundiais de última geração, tokenizadores de vídeo e pipelines de processamento de dados acelerados por IA. Os desenvolvedores podem acelerar o desenvolvimento de modelos mundiais ajustando os modelos fundamentais mundiais do Cosmos ou construindo novos modelos do zero.

3. Tecnologia de Reconhecimento de Fala

Modelos da Série Parakeet

  • Parakeet-TDT - Apresenta melhor precisão e é 64% mais rápido que o melhor modelo anterior, Parakeet-RNNT-1.1B
  • Modelo Multilíngue Canary - Pode transcrever fala em inglês, espanhol, alemão e francês, com pontuação e letras maiúsculas, e também fornece tradução bidirecional entre esses idiomas

Otimização de Desempenho

A equipe NVIDIA NeMo lançou várias otimizações de inferência para modelos CTC, RNN-T e TDT, alcançando melhorias de velocidade de inferência de até 10 vezes. Esses modelos agora excedem um fator de tempo real inverso (RTFx) de 2.000, e alguns até atingem 6.000 RTFx.

Instalação e Implantação

Métodos de Instalação Suportados

  1. Instalação Conda/Pip - Adequado para explorar o NeMo, recomendado para os domínios ASR e TTS
  2. Contêiner NGC PyTorch - Instalação a partir do código-fonte em um contêiner altamente otimizado
  3. Contêiner NGC NeMo - Solução pronta para uso, incluindo todas as dependências

Requisitos de Sistema

  • Python 3.10 ou superior
  • PyTorch 2.5 ou superior
  • NVIDIA GPU (se você pretende realizar treinamento de modelo)

Suporte de Plataforma

Sistema Operacional/Plataforma Instalação PyPi Instalação do Código-Fonte do Contêiner NGC
Linux - amd64/x84_64 Suporte Limitado Suporte Total
Linux - arm64 Suporte Limitado Suporte Limitado
macOS - amd64/x64_64 Descontinuado Descontinuado
macOS - arm64 Suporte Limitado Suporte Limitado

Ecossistema e Cadeia de Ferramentas

Projetos Relacionados

  • NeMo-Run - Ferramenta para configurar, iniciar e gerenciar experimentos de aprendizado de máquina
  • NeMo Curator - Kit de ferramentas escalável de pré-processamento e curadoria de dados para LLMs
  • NeMo Guardrails - Kit de ferramentas de código aberto para adicionar proteções programáveis a sistemas de diálogo baseados em LLM
  • NeMo Aligner - Ferramenta de alinhamento de modelos
  • NeMo Skills - Projeto para melhorar as "habilidades" de modelos de linguagem grandes

Implantação e Otimização

  • NeMo LLMs e MMs podem ser implantados e otimizados por meio do NVIDIA NeMo Microservices
  • Os modelos NeMo ASR e TTS podem ser otimizados para inferência e implantados em casos de uso de produção por meio do NVIDIA Riva

Desempenho

Resultados de Benchmark

  • MLPerf Training v4.0 - Usando o NVIDIA NeMo Framework e a NVIDIA Hopper GPU, a NVIDIA conseguiu escalar para 11.616 GPUs H100 e alcançar uma escalabilidade de desempenho quase linear no pré-treinamento de LLM
  • Aumento de Desempenho H200 - Velocidade de pré-treinamento do Llama 2 até 4,2 vezes mais rápida na NVIDIA H200 Tensor Core GPU

Casos de Uso e Parceiros

Aplicações Empresariais

  • Modelos Fundamentais Amazon Titan - O NVIDIA NeMo Framework agora oferece suporte eficiente ao treinamento de modelos de linguagem grandes para modelos fundamentais Amazon Titan
  • Plataforma Bria.ai - Utiliza a implementação de referência da coleção multimodal NeMo para obter alta taxa de transferência e geração de imagens de baixa latência

Suporte à Plataforma de Nuvem

  • Amazon EKS - Suporte para executar cargas de trabalho de treinamento distribuído em clusters Amazon Elastic Kubernetes Service
  • Google GKE - Fornece orientação completa para o treinamento de modelos de IA generativa no Google Kubernetes Engine

Código Aberto e Licenciamento

O NeMo Framework é de código aberto sob a licença Apache 2.0 e as contribuições da comunidade são bem-vindas. O projeto mantém um desenvolvimento e suporte ativos no GitHub, fornecendo ampla documentação, tutoriais e scripts de exemplo.

Recursos de Aprendizagem

  • Documentação Oficial - Fornece guias do usuário e documentação técnica completos
  • Tutoriais - Ampla gama de tutoriais que podem ser executados no Google Colab
  • Scripts de Exemplo - Conjunto completo de exemplos que suportam treinamento multi-GPU/multi-nó
  • Suporte da Comunidade - Fornece perguntas frequentes e suporte da comunidade por meio do quadro de discussões do GitHub

O NVIDIA NeMo Framework representa a vanguarda do desenvolvimento de IA generativa, fornecendo uma plataforma poderosa, flexível e escalável para pesquisadores e desenvolvedores criarem a próxima geração de aplicativos de IA.

Star History Chart