NVIDIA/NeMoView GitHub Homepage for Latest Official Releases

Un marco de IA generativa escalable construido para investigadores y desarrolladores, centrado en modelos de lenguaje grandes, multimodal e IA de voz (reconocimiento automático del habla y texto a voz)

Apache-2.0PythonNeMoNVIDIA 15.3k Last Updated: August 07, 2025

Introducción Detallada al Proyecto NVIDIA NeMo

Resumen del Proyecto

NVIDIA NeMo Framework es un framework de IA generativa escalable y nativo de la nube, diseñado para investigadores y desarrolladores de PyTorch, centrado en modelos de lenguaje grandes (LLMs), modelos multimodales (MMs), reconocimiento automático del habla (ASR), texto a voz (TTS) y visión por computadora (CV). El framework está diseñado para ayudar a los usuarios a crear, personalizar e implementar eficientemente nuevos modelos de IA generativa aprovechando el código existente y los puntos de control de modelos pre-entrenados.

Características Principales

Actualizaciones Significativas de NeMo 2.0

NeMo 2.0 introduce varias mejoras importantes en comparación con su predecesor, NeMo 1.0, mejorando la flexibilidad, el rendimiento y la escalabilidad:

Configuración basada en Python - Transición de archivos YAML a configuración basada en Python, proporcionando mayor flexibilidad y control.
Abstracciones Modulares - Adopción de abstracciones modulares de PyTorch Lightning, simplificando la adaptación y el proceso de experimentación.
Escalabilidad - Escalado sin problemas a experimentos a gran escala con miles de GPU utilizando NeMo-Run.

Ventajas de la Arquitectura Técnica

Todos los modelos NeMo se entrenan utilizando Lightning, y el entrenamiento se escala automáticamente a miles de GPU. El framework integra tecnologías de entrenamiento distribuido de vanguardia, incluyendo:

Paralelismo de Tensores (TP)
Paralelismo de Pipeline (PP)
Paralelismo de Datos Totalmente Fragmentado (FSDP)
Mezcla de Expertos (MoE)
Entrenamiento de Precisión Mixta (soporte para BFloat16 y FP8)

Los LLMs y MMs basados en Transformer utilizan NVIDIA Transformer Engine para el entrenamiento FP8 en las GPU NVIDIA Hopper, al tiempo que aprovechan NVIDIA Megatron Core para escalar el entrenamiento de modelos Transformer.

Principales Áreas de Aplicación

1. Modelos de Lenguaje Grandes y Modelos Multimodales

Actualizaciones de Funciones Más Recientes

Soporte AutoModel - La función más reciente de NeMo Framework, AutoModel, admite modelos 🤗Hugging Face, con la versión 25.02 centrada en AutoModelForCausalLM en la categoría de generación de texto.
Soporte Blackwell - NeMo Framework ha añadido soporte para Blackwell, con la versión 25.02 centrada en la paridad de características para B200.

Técnicas de Alineación de Modelos

Los LLMs de NeMo se pueden alinear utilizando métodos de última generación como SteerLM, Optimización Directa de Preferencias (DPO) y Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF). Además del ajuste fino supervisado (SFT), NeMo también admite las últimas técnicas de ajuste fino eficientes en parámetros (PEFT) como LoRA, P-Tuning, Adapters e IA3.

2. Modelos Fundacionales del Mundo Cosmos

La plataforma NVIDIA Cosmos acelera el desarrollo de modelos del mundo para sistemas de IA física. Construido sobre CUDA, Cosmos combina modelos fundacionales del mundo de última generación, tokenizadores de vídeo y pipelines de procesamiento de datos acelerados por IA. Los desarrolladores pueden acelerar el desarrollo de modelos del mundo ajustando los modelos fundacionales del mundo Cosmos o construyendo nuevos modelos desde cero.

3. Tecnología de Reconocimiento de Voz

Modelos de la Serie Parakeet

Parakeet-TDT - Ofrece un mejor rendimiento en precisión y es un 64% más rápido que el mejor modelo anterior, Parakeet-RNNT-1.1B.
Modelo Multilingüe Canary - Puede transcribir voz en inglés, español, alemán y francés, con puntuación y mayúsculas, y también proporciona traducción bidireccional entre estos idiomas.

Optimización del Rendimiento

El equipo de NVIDIA NeMo ha publicado varias optimizaciones de inferencia para modelos CTC, RNN-T y TDT, logrando hasta 10 veces la mejora en la velocidad de inferencia, y estos modelos ahora superan un factor de tiempo real inverso (RTFx) de 2,000, y algunos incluso alcanzan 6,000 RTFx.

Instalación e Implementación

Métodos de Instalación Compatibles

Instalación con Conda/Pip - Adecuado para explorar NeMo, recomendado para los dominios ASR y TTS.
Contenedor NGC PyTorch - Instalación desde el código fuente en un contenedor altamente optimizado.
Contenedor NGC NeMo - Solución lista para usar que incluye todas las dependencias.

Requisitos del Sistema

Python 3.10 o superior
PyTorch 2.5 o superior
NVIDIA GPU (si se pretende entrenar modelos)

Soporte de Plataforma

Sistema Operativo/Plataforma	Instalación PyPi	Instalación de Código Fuente del Contenedor NGC
Linux - amd64/x84_64	Soporte Limitado	Soporte Completo
Linux - arm64	Soporte Limitado	Soporte Limitado
macOS - amd64/x64_64	Obsoleto	Obsoleto
macOS - arm64	Soporte Limitado	Soporte Limitado

Ecosistema y Cadena de Herramientas

Proyectos Relacionados

NeMo-Run - Herramienta para configurar, iniciar y administrar experimentos de aprendizaje automático.
NeMo Curator - Kit de herramientas escalable de preprocesamiento y curación de datos para LLMs.
NeMo Guardrails - Kit de herramientas de código abierto para agregar barreras de protección programables a sistemas de diálogo basados en LLM.
NeMo Aligner - Herramienta de alineación de modelos.
NeMo Skills - Proyecto para mejorar las "habilidades" de los modelos de lenguaje grandes.

Implementación y Optimización

Los LLMs y MMs de NeMo se pueden implementar y optimizar a través de NVIDIA NeMo Microservices.
Los modelos ASR y TTS de NeMo se pueden optimizar para la inferencia con NVIDIA Riva e implementarse en casos de uso de producción.

Rendimiento

Resultados de Benchmarking

MLPerf Training v4.0 - Utilizando NVIDIA NeMo Framework y NVIDIA Hopper GPU, NVIDIA pudo escalar a 11,616 GPU H100 y lograr una escalabilidad de rendimiento casi lineal en el preentrenamiento de LLM.
Mejora del Rendimiento H200 - Hasta 4.2 veces más rápido en el preentrenamiento de Llama 2 en la GPU NVIDIA H200 Tensor Core.

Casos de Uso y Socios

Aplicaciones Empresariales

Modelos Fundacionales Amazon Titan - NVIDIA NeMo Framework ahora proporciona soporte eficiente para el entrenamiento de modelos de lenguaje grandes para los modelos fundacionales Amazon Titan.
Plataforma Bria.ai - Aprovechando la implementación de referencia de la colección multimodal de NeMo para lograr una generación de imágenes de alto rendimiento y baja latencia.

Soporte de Plataforma en la Nube

Amazon EKS - Soporte para ejecutar cargas de trabajo de entrenamiento distribuido en clústeres de Amazon Elastic Kubernetes Service.
Google GKE - Proporciona orientación de extremo a extremo para entrenar modelos de IA generativa en Google Kubernetes Engine.

Código Abierto y Licencia

NeMo Framework es de código abierto bajo la licencia Apache 2.0 y da la bienvenida a las contribuciones de la comunidad. El proyecto mantiene un desarrollo y soporte activos en GitHub, proporcionando una amplia documentación, tutoriales y scripts de ejemplo.

Recursos de Aprendizaje

Documentación Oficial - Proporciona guías de usuario completas y documentación técnica.
Tutoriales - Amplios tutoriales que se pueden ejecutar en Google Colab.
Scripts de Ejemplo - Conjunto completo de ejemplos que admiten el entrenamiento multi-GPU/multi-nodo.
Soporte de la Comunidad - Proporciona preguntas frecuentes y soporte de la comunidad a través de la sección de Discusiones de GitHub.

NVIDIA NeMo Framework representa la vanguardia del desarrollo de IA generativa, proporcionando a investigadores y desarrolladores una plataforma potente, flexible y escalable para construir la próxima generación de aplicaciones de IA.