deepspeedai/DeepSpeed-MIIPlease refer to the latest official releases for information GitHub Homepage

DeepSpeed-MII : Déployez et exécutez facilement de grands modèles d'IA avec le moteur d'optimisation DeepSpeed, pour une faible latence et un débit élevé.

Apache-2.0Python 2.0kdeepspeedai Last Updated: 2025-03-26

DeepSpeed-MII (DeepSpeed Model Inference)

DeepSpeed-MII est une bibliothèque open source développée par l'équipe DeepSpeed de Microsoft pour l'inférence de modèles à grande échelle. Son objectif est de permettre aux utilisateurs de déployer et d'exécuter des grands modèles de langage (LLM) et d'autres modèles d'apprentissage profond avec une latence et un coût extrêmement faibles.

Caractéristiques et avantages principaux

Inférence à faible latence : MII se concentre sur l'optimisation des performances d'inférence, en réduisant la latence grâce à diverses techniques, notamment :
- Parallélisme de modèle : Division du modèle sur plusieurs GPU, permettant un calcul parallèle et accélérant le processus d'inférence.
- Parallélisme de tenseur : Division des tenseurs sur plusieurs GPU, augmentant encore le parallélisme.
- Parallélisme pipeline : Décomposition du processus d'inférence en plusieurs étapes, exécutées en parallèle sur différents GPU, améliorant le débit.
- Fusion d'opérateurs : Fusion de plusieurs opérateurs en un seul, réduisant les coûts de lancement de kernel.
- Quantification : Utilisation de types de données de plus faible précision (par exemple, INT8) pour représenter les paramètres du modèle et les valeurs d'activation, réduisant l'occupation mémoire et la charge de calcul.
- Optimisation de la compilation : Utilisation de techniques d'optimisation du compilateur pour améliorer l'efficacité de l'exécution du code.
Déploiement à faible coût : MII vise à réduire le coût de déploiement des grands modèles, en utilisant les méthodes suivantes :
- Compression de modèle : Utilisation de techniques de quantification, d'élagage, etc., pour réduire la taille du modèle et les besoins en mémoire.
- Traitement par lots dynamique : Ajustement dynamique de la taille des lots en fonction de la charge réelle, améliorant l'utilisation du GPU.
- Mémoire partagée : Partage de la mémoire entre plusieurs modèles, réduisant l'occupation mémoire.
Facilité d'utilisation : MII fournit une API simple et facile à utiliser, permettant aux utilisateurs de déployer et d'exécuter facilement des grands modèles, sans avoir besoin de connaître les détails sous-jacents.
Large support de modèles : MII prend en charge de nombreux LLM populaires, notamment :
- Série GPT
- Série BERT
- Série T5
- Série Llama
Options de déploiement flexibles : MII prend en charge plusieurs options de déploiement, notamment :
- Déploiement local : Déploiement du modèle sur une seule machine.
- Déploiement distribué : Déploiement du modèle sur plusieurs machines.
- Déploiement dans le cloud : Déploiement du modèle sur une plateforme cloud.
Intégration avec l'écosystème DeepSpeed : MII s'intègre de manière transparente avec d'autres composants de l'écosystème DeepSpeed (tels que DeepSpeed Training), facilitant la formation et le déploiement des modèles pour les utilisateurs.

Fonctionnalités principales

Déploiement de modèles : Déploiement de modèles pré-entraînés sur un serveur d'inférence.
Service d'inférence : Fourniture d'interfaces HTTP/gRPC pour que les clients puissent appeler et effectuer des inférences.
Gestion des modèles : Gestion des modèles déployés, y compris le chargement, le déchargement, la mise à jour, etc.
Surveillance des performances : Surveillance des indicateurs de performance du service d'inférence, tels que la latence, le débit, l'utilisation du GPU, etc.

Scénarios d'application

Traitement du langage naturel (NLP) : Génération de texte, classification de texte, traduction automatique, systèmes de questions-réponses, etc.
Vision par ordinateur (CV) : Reconnaissance d'images, détection d'objets, génération d'images, etc.
Systèmes de recommandation : Recommandations personnalisées, recommandations publicitaires, etc.
Autres applications d'apprentissage profond : Toute application basée sur des modèles d'apprentissage profond peut envisager d'utiliser MII pour accélérer l'inférence et optimiser les coûts.

Comment utiliser

Installer MII : Installer la bibliothèque MII à l'aide de pip.
Charger le modèle : Charger le modèle pré-entraîné à l'aide de l'API fournie par MII.
Déployer le modèle : Déployer le modèle sur le serveur d'inférence.
Appeler le service d'inférence : Utiliser l'interface HTTP/gRPC pour appeler le service d'inférence et effectuer l'inférence.

Conclusion

DeepSpeed-MII est une bibliothèque d'inférence de modèles à grande échelle puissante et facile à utiliser, qui peut aider les utilisateurs à déployer et à exécuter des grands modèles avec une latence et un coût extrêmement faibles. Elle convient à diverses applications d'apprentissage profond, en particulier celles qui nécessitent des performances élevées et des coûts réduits.