NVIDIA/NeMoView GitHub Homepage for Latest Official Releases

Um framework de IA generativa escalável para pesquisadores e desenvolvedores, focado em grandes modelos de linguagem, multimodalidade e IA de voz (reconhecimento automático de fala e texto para fala)

Apache-2.0PythonNeMoNVIDIA 15.4k Last Updated: August 18, 2025

Apresentação Detalhada do Projeto NVIDIA NeMo

Visão Geral do Projeto

O NVIDIA NeMo Framework é um framework de IA generativa escalável e nativo da nuvem, construído para pesquisadores e desenvolvedores PyTorch, com foco em modelos de linguagem grandes (LLMs), modelos multimodais (MMs), reconhecimento automático de fala (ASR), texto para fala (TTS) e visão computacional (CV). O framework foi projetado para ajudar os usuários a criar, personalizar e implantar novos modelos de IA generativa de forma eficiente, aproveitando o código existente e os checkpoints de modelos pré-treinados.

Principais Características

Atualização Significativa do NeMo 2.0

O NeMo 2.0 introduz várias melhorias importantes em relação ao seu antecessor, NeMo 1.0, aprimorando a flexibilidade, o desempenho e a escalabilidade:

Configuração Baseada em Python - Transição de arquivos YAML para configuração baseada em Python, oferecendo maior flexibilidade e controle
Abstrações Modulares - Adoção de abstrações modulares do PyTorch Lightning, simplificando a adaptação e o processo de experimentação
Escalabilidade - Expansão perfeita para experimentos em larga escala com milhares de GPUs usando NeMo-Run

Vantagens da Arquitetura Técnica

Todos os modelos NeMo são treinados usando Lightning, e o treinamento pode ser escalado automaticamente para milhares de GPUs. O framework integra tecnologias de treinamento distribuído de ponta, incluindo:

Paralelismo de Tensor (TP)
Paralelismo de Pipeline (PP)
Paralelismo de Dados Totalmente Fragmentado (FSDP)
Mistura de Especialistas (MoE)
Treinamento de Precisão Mista (suporte para BFloat16 e FP8)

LLMs e MMs baseados em Transformer utilizam o NVIDIA Transformer Engine para treinamento FP8 em GPUs NVIDIA Hopper, ao mesmo tempo em que aproveitam o NVIDIA Megatron Core para expandir o treinamento de modelos Transformer.

Principais Áreas de Aplicação

1. Modelos de Linguagem Grandes e Modelos Multimodais

Atualizações de Recursos Mais Recentes

Suporte AutoModel - O recurso mais recente do NeMo Framework, AutoModel, suporta modelos 🤗Hugging Face, com a versão 25.02 focada em AutoModelForCausalLM na categoria de geração de texto
Suporte Blackwell - O NeMo Framework adicionou suporte Blackwell, com a versão 25.02 focada na paridade de recursos do B200

Técnicas de Alinhamento de Modelos

Os NeMo LLMs podem ser alinhados usando métodos de última geração, como SteerLM, Otimização Direta de Preferência (DPO) e Aprendizado por Reforço com Feedback Humano (RLHF). Além do ajuste fino supervisionado (SFT), o NeMo também oferece suporte às mais recentes técnicas de ajuste fino com eficiência de parâmetros (PEFT), como LoRA, P-Tuning, Adapters e IA3.

2. Modelos Fundamentais do Mundo Cosmos

A plataforma NVIDIA Cosmos acelera o desenvolvimento de modelos mundiais para sistemas de IA física. Construído com base em CUDA, o Cosmos combina modelos fundamentais mundiais de última geração, tokenizadores de vídeo e pipelines de processamento de dados acelerados por IA. Os desenvolvedores podem acelerar o desenvolvimento de modelos mundiais ajustando os modelos fundamentais mundiais do Cosmos ou construindo novos modelos do zero.

3. Tecnologia de Reconhecimento de Fala

Modelos da Série Parakeet

Parakeet-TDT - Apresenta melhor precisão e é 64% mais rápido que o melhor modelo anterior, Parakeet-RNNT-1.1B
Modelo Multilíngue Canary - Pode transcrever fala em inglês, espanhol, alemão e francês, com pontuação e letras maiúsculas, e também fornece tradução bidirecional entre esses idiomas

Otimização de Desempenho

A equipe NVIDIA NeMo lançou várias otimizações de inferência para modelos CTC, RNN-T e TDT, alcançando melhorias de velocidade de inferência de até 10 vezes. Esses modelos agora excedem um fator de tempo real inverso (RTFx) de 2.000, e alguns até atingem 6.000 RTFx.

Instalação e Implantação

Métodos de Instalação Suportados

Instalação Conda/Pip - Adequado para explorar o NeMo, recomendado para os domínios ASR e TTS
Contêiner NGC PyTorch - Instalação a partir do código-fonte em um contêiner altamente otimizado
Contêiner NGC NeMo - Solução pronta para uso, incluindo todas as dependências

Requisitos de Sistema

Python 3.10 ou superior
PyTorch 2.5 ou superior
NVIDIA GPU (se você pretende realizar treinamento de modelo)

Suporte de Plataforma

Sistema Operacional/Plataforma	Instalação PyPi	Instalação do Código-Fonte do Contêiner NGC
Linux - amd64/x84_64	Suporte Limitado	Suporte Total
Linux - arm64	Suporte Limitado	Suporte Limitado
macOS - amd64/x64_64	Descontinuado	Descontinuado
macOS - arm64	Suporte Limitado	Suporte Limitado

Ecossistema e Cadeia de Ferramentas

Projetos Relacionados

NeMo-Run - Ferramenta para configurar, iniciar e gerenciar experimentos de aprendizado de máquina
NeMo Curator - Kit de ferramentas escalável de pré-processamento e curadoria de dados para LLMs
NeMo Guardrails - Kit de ferramentas de código aberto para adicionar proteções programáveis a sistemas de diálogo baseados em LLM
NeMo Aligner - Ferramenta de alinhamento de modelos
NeMo Skills - Projeto para melhorar as "habilidades" de modelos de linguagem grandes

Implantação e Otimização

NeMo LLMs e MMs podem ser implantados e otimizados por meio do NVIDIA NeMo Microservices
Os modelos NeMo ASR e TTS podem ser otimizados para inferência e implantados em casos de uso de produção por meio do NVIDIA Riva

Desempenho

Resultados de Benchmark

MLPerf Training v4.0 - Usando o NVIDIA NeMo Framework e a NVIDIA Hopper GPU, a NVIDIA conseguiu escalar para 11.616 GPUs H100 e alcançar uma escalabilidade de desempenho quase linear no pré-treinamento de LLM
Aumento de Desempenho H200 - Velocidade de pré-treinamento do Llama 2 até 4,2 vezes mais rápida na NVIDIA H200 Tensor Core GPU

Casos de Uso e Parceiros

Aplicações Empresariais

Modelos Fundamentais Amazon Titan - O NVIDIA NeMo Framework agora oferece suporte eficiente ao treinamento de modelos de linguagem grandes para modelos fundamentais Amazon Titan
Plataforma Bria.ai - Utiliza a implementação de referência da coleção multimodal NeMo para obter alta taxa de transferência e geração de imagens de baixa latência

Suporte à Plataforma de Nuvem

Amazon EKS - Suporte para executar cargas de trabalho de treinamento distribuído em clusters Amazon Elastic Kubernetes Service
Google GKE - Fornece orientação completa para o treinamento de modelos de IA generativa no Google Kubernetes Engine

Código Aberto e Licenciamento

O NeMo Framework é de código aberto sob a licença Apache 2.0 e as contribuições da comunidade são bem-vindas. O projeto mantém um desenvolvimento e suporte ativos no GitHub, fornecendo ampla documentação, tutoriais e scripts de exemplo.

Recursos de Aprendizagem

Documentação Oficial - Fornece guias do usuário e documentação técnica completos
Tutoriais - Ampla gama de tutoriais que podem ser executados no Google Colab
Scripts de Exemplo - Conjunto completo de exemplos que suportam treinamento multi-GPU/multi-nó
Suporte da Comunidade - Fornece perguntas frequentes e suporte da comunidade por meio do quadro de discussões do GitHub

O NVIDIA NeMo Framework representa a vanguarda do desenvolvimento de IA generativa, fornecendo uma plataforma poderosa, flexível e escalável para pesquisadores e desenvolvedores criarem a próxima geração de aplicativos de IA.