Home
Login

Un framework d'IA générative extensible conçu pour les chercheurs et les développeurs, axé sur les grands modèles de langage, le multimodal et l'IA vocale (reconnaissance vocale automatique et synthèse vocale)

Apache-2.0Python 14.9kNVIDIA Last Updated: 2025-06-19

Présentation détaillée du projet NVIDIA NeMo

Aperçu du projet

NVIDIA NeMo Framework est un framework d'IA générative évolutif et natif du cloud, conçu pour les chercheurs et les développeurs PyTorch, axé sur les grands modèles de langage (LLM), les modèles multimodaux (MM), la reconnaissance automatique de la parole (ASR), la synthèse vocale (TTS) et la vision par ordinateur (CV). Ce framework vise à aider les utilisateurs à créer, personnaliser et déployer efficacement de nouveaux modèles d'IA générative en tirant parti du code existant et des points de contrôle de modèles pré-entraînés.

Caractéristiques principales

Mise à jour majeure de NeMo 2.0

NeMo 2.0 introduit plusieurs améliorations importantes par rapport à son prédécesseur NeMo 1.0, renforçant la flexibilité, les performances et l'évolutivité :

  • Configuration basée sur Python - Passage des fichiers YAML à une configuration basée sur Python, offrant une plus grande flexibilité et un meilleur contrôle.
  • Abstraction modulaire - Adoption de l'abstraction modulaire de PyTorch Lightning, simplifiant l'adaptation et le processus d'expérimentation.
  • Évolutivité - Utilisation de NeMo-Run pour une extension transparente à des expériences à grande échelle sur des milliers de GPU.

Avantages de l'architecture technique

Tous les modèles NeMo sont entraînés à l'aide de Lightning, et l'entraînement peut être automatiquement étendu à des milliers de GPU. Le framework intègre des technologies de formation distribuée de pointe, notamment :

  • Parallélisme de tenseur (TP)
  • Parallélisme de pipeline (PP)
  • Parallélisme de données entièrement fragmentées (FSDP)
  • Mélange d'experts (MoE)
  • Formation en précision mixte (prise en charge de BFloat16 et FP8)

Les LLM et MM basés sur Transformer utilisent NVIDIA Transformer Engine pour la formation FP8 sur les GPU NVIDIA Hopper, tout en tirant parti de NVIDIA Megatron Core pour étendre la formation des modèles Transformer.

Principaux domaines d'application

1. Grands modèles de langage et modèles multimodaux

Dernières mises à jour des fonctionnalités

  • Prise en charge d'AutoModel - La dernière fonctionnalité d'AutoModel de NeMo Framework prend en charge les modèles 🤗Hugging Face, la version 25.02 se concentrant sur AutoModelForCausalLM dans la catégorie de la génération de texte.
  • Prise en charge de Blackwell - NeMo Framework a ajouté la prise en charge de Blackwell, la version 25.02 se concentrant sur la parité des fonctionnalités de B200.

Techniques d'alignement des modèles

Les LLM NeMo peuvent être alignés à l'aide de méthodes de pointe telles que SteerLM, l'optimisation directe des préférences (DPO) et l'apprentissage par renforcement avec feedback humain (RLHF). Outre le réglage fin supervisé (SFT), NeMo prend également en charge les dernières techniques de réglage fin efficaces en termes de paramètres (PEFT) telles que LoRA, P-Tuning, Adapters et IA3.

2. Modèles de base du monde Cosmos

La plateforme NVIDIA Cosmos accélère le développement de modèles du monde pour les systèmes d'IA physique. Construit sur CUDA, Cosmos combine des modèles de base du monde de pointe, des tokenizer vidéo et des pipelines de traitement de données accélérés par l'IA. Les développeurs peuvent accélérer le développement de modèles du monde en affinant les modèles de base du monde Cosmos ou en construisant de nouveaux modèles à partir de zéro.

3. Technologie de reconnaissance vocale

Série de modèles Parakeet

  • Parakeet-TDT - Offre une meilleure précision et est 64 % plus rapide que le meilleur modèle précédent, Parakeet-RNNT-1.1B.
  • Modèle multilingue Canary - Peut transcrire la parole en anglais, espagnol, allemand et français, avec ponctuation et majuscules, et fournit également une traduction bidirectionnelle entre ces langues.

Optimisation des performances

L'équipe NVIDIA NeMo a publié plusieurs optimisations d'inférence pour les modèles CTC, RNN-T et TDT, réalisant des gains de vitesse d'inférence allant jusqu'à 10x. Ces modèles dépassent désormais un facteur de temps réel inverse (RTFx) de 2 000, certains atteignant même 6 000 RTFx.

Installation et déploiement

Méthodes d'installation prises en charge

  1. Installation Conda/Pip - Convient pour explorer NeMo, recommandé pour les domaines ASR et TTS.
  2. Conteneur NGC PyTorch - Installation à partir du code source dans un conteneur hautement optimisé.
  3. Conteneur NGC NeMo - Solution prête à l'emploi, contenant toutes les dépendances.

Configuration système requise

  • Python 3.10 ou version ultérieure
  • PyTorch 2.5 ou version ultérieure
  • NVIDIA GPU (si vous prévoyez d'effectuer l'entraînement du modèle)

Prise en charge de la plateforme

Système d'exploitation/Plateforme Installation PyPi Installation du code source du conteneur NGC
Linux - amd64/x84_64 Prise en charge limitée Prise en charge complète
Linux - arm64 Prise en charge limitée Prise en charge limitée
macOS - amd64/x64_64 Déprécié Déprécié
macOS - arm64 Prise en charge limitée Prise en charge limitée

Écosystème et chaîne d'outils

Projets connexes

  • NeMo-Run - Outil pour configurer, lancer et gérer des expériences d'apprentissage automatique.
  • NeMo Curator - Boîte à outils évolutive de prétraitement et de conservation des données pour LLM.
  • NeMo Guardrails - Boîte à outils open source pour ajouter des garde-fous programmables aux systèmes de dialogue basés sur LLM.
  • NeMo Aligner - Outil d'alignement de modèles.
  • NeMo Skills - Projet visant à améliorer les "compétences" des grands modèles de langage.

Déploiement et optimisation

  • Les LLM et MM NeMo peuvent être déployés et optimisés via NVIDIA NeMo Microservices.
  • Les modèles NeMo ASR et TTS peuvent être optimisés pour l'inférence et déployés dans des cas d'utilisation de production via NVIDIA Riva.

Performances

Résultats des tests de référence

  • MLPerf Training v4.0 - En utilisant NVIDIA NeMo Framework et NVIDIA Hopper GPU, NVIDIA a pu s'étendre à 11 616 GPU H100 et obtenir une mise à l'échelle des performances presque linéaire sur la pré-formation LLM.
  • Amélioration des performances H200 - Vitesse de pré-formation Llama 2 jusqu'à 4,2 fois plus rapide sur le GPU NVIDIA H200 Tensor Core.

Cas d'utilisation et partenaires

Applications d'entreprise

  • Modèles de base Amazon Titan - NVIDIA NeMo Framework fournit désormais une prise en charge efficace de la formation de grands modèles de langage pour les modèles de base Amazon Titan.
  • Plateforme Bria.ai - Utilisation de l'implémentation de référence de la collection multimodale NeMo pour obtenir une génération d'images à haut débit et à faible latence.

Prise en charge de la plateforme cloud

  • Amazon EKS - Prise en charge de l'exécution de charges de travail de formation distribuées sur des clusters Amazon Elastic Kubernetes Service.
  • Google GKE - Fournit des conseils de bout en bout pour la formation de modèles d'IA générative sur Google Kubernetes Engine.

Open source et licence

NeMo Framework est open source sous la licence Apache 2.0 et les contributions de la communauté sont les bienvenues. Le projet maintient un développement et un support actifs sur GitHub, offrant une documentation, des tutoriels et des exemples de scripts complets.

Ressources d'apprentissage

  • Documentation officielle - Fournit un guide de l'utilisateur et une documentation technique complets.
  • Tutoriels - Vaste gamme de tutoriels exécutables sur Google Colab.
  • Exemples de scripts - Suite complète d'exemples prenant en charge la formation multi-GPU/multi-nœuds.
  • Support communautaire - FAQ et support communautaire disponibles via le forum GitHub Discussions.

NVIDIA NeMo Framework représente le summum du développement de l'IA générative, offrant aux chercheurs et aux développeurs une plateforme puissante, flexible et évolutive pour créer la prochaine génération d'applications d'IA.