huggingface/text-generation-inferencePlease refer to the latest official releases for information GitHub Homepage

Text Generation Inference (TGI) est une bibliothèque Rust pour le déploiement à grande échelle de modèles de génération de texte. Elle est conçue pour des performances élevées, une faible latence et une utilisation efficace des ressources, particulièrement adaptée aux environnements de production.

Apache-2.0Python 10.2khuggingface Last Updated: 2025-06-13

Hugging Face Text Generation Inference (TGI)

Introduction

Text Generation Inference (TGI) est une boîte à outils spécialement conçue pour le déploiement et la fourniture de services d'inférence pour les grands modèles de langage (LLM). Développé par Hugging Face, il vise à résoudre les défis liés à l'exécution efficace des LLM dans des environnements de production. TGI se concentre sur la fourniture de hautes performances, de facilité d'utilisation et d'évolutivité, permettant aux développeurs d'intégrer facilement les LLM dans leurs applications.

Caractéristiques Principales

Inférence Haute Performance :
- Noyaux optimisés : Utilisation de technologies telles que Flash Attention, Paged Attention pour optimiser la vitesse d'inférence.
- Parallélisme Tensoriel : Prise en charge du parallélisme tensoriel sur plusieurs GPU pour accélérer l'inférence des grands modèles.
- Quantification : Prise en charge de la quantification des modèles (par exemple, INT8, FP16) pour réduire l'empreinte mémoire et augmenter le débit.
Facilité d'Utilisation :
- Déploiement simple : Fourniture d'images Docker et de scripts de déploiement Kubernetes pour simplifier le processus de déploiement.
- API REST : Fourniture d'une API REST facile à utiliser pour interagir avec les modèles.
- Support gRPC : Prise en charge du protocole gRPC pour une communication plus efficace.
Évolutivité :
- Échelle Horizontale : Possibilité d'étendre horizontalement le service d'inférence en ajoutant davantage de nœuds GPU.
- Batching Dynamique : Regroupement automatique de plusieurs requêtes pour améliorer le débit.
Modèles Pris en Charge :
- Prise en charge de divers LLM sur Hugging Face Hub, notamment :
  - GPT-2, GPT-Neo, GPT-J
  - BLOOM
  - Llama, Llama 2
  - T5
  - Etc.
- Prise en charge des modèles personnalisés.
Fonctionnalités Avancées :
- Sortie en Streaming : Prise en charge de la génération de texte en streaming, permettant aux utilisateurs de voir les résultats immédiatement pendant que le modèle génère le texte.
- Streaming de Tokens : Permet de diffuser la sortie par token, offrant un contrôle plus précis.
- Modèles de Prompt : Prise en charge de l'utilisation de modèles de prompt pour formater les prompts d'entrée.
- Sécurité : Fourniture de fonctionnalités de sécurité telles que l'authentification et l'autorisation.
- Surveillance : Fourniture de métriques de surveillance pour suivre les performances du service d'inférence.
- Journalisation : Fourniture d'une journalisation détaillée pour aider à déboguer les problèmes.

Architecture

L'architecture de TGI comprend généralement les composants suivants :

Serveur API : Reçoit les requêtes des clients et les transmet au moteur d'inférence.
Moteur d'Inférence : Responsable du chargement du modèle et de l'exécution de l'inférence.
Stockage des Modèles : Stocke les poids et la configuration du modèle.
Planificateur : Responsable de l'attribution des requêtes aux moteurs d'inférence disponibles.

Déploiement

TGI peut être déployé de plusieurs manières, notamment :

Docker : Fourniture d'images Docker, permettant de déployer facilement TGI dans n'importe quel environnement prenant en charge Docker.
Kubernetes : Fourniture de scripts de déploiement Kubernetes, permettant de déployer TGI dans un cluster Kubernetes.
Plateformes Cloud : Possibilité de déployer TGI sur diverses plateformes cloud, telles que AWS, Azure et GCP.

Exemple d'Utilisation

Voici un exemple d'utilisation de l'API REST de TGI pour la génération de texte :

curl -X POST http://localhost:8080/generate \
     -H "Content-Type: application/json" \
     -d '{"inputs": "The quick brown fox jumps over the lazy dog.", "parameters": {"max_new_tokens": 50}}'

Avantages

Haute Performance : TGI est optimisé pour fournir une inférence LLM haute performance.
Facilité d'Utilisation : TGI fournit des API et des options de déploiement simples, ce qui le rend facile à utiliser.
Évolutivité : TGI peut être étendu horizontalement pour gérer un grand nombre de requêtes.
Flexibilité : TGI prend en charge divers LLM et environnements de déploiement.
Support Communautaire : TGI est activement maintenu et pris en charge par la communauté Hugging Face.

Limites

Besoins en Ressources : L'exécution de LLM nécessite des ressources de calcul importantes, telles que la mémoire GPU.
Complexité : Le déploiement et la gestion des services d'inférence LLM peuvent être complexes.
Coût : L'exécution des services d'inférence LLM peut être coûteuse, en particulier lors de l'utilisation de plateformes cloud.

Conclusion

Text Generation Inference (TGI) est un outil puissant qui peut aider les développeurs à déployer et à fournir des services d'inférence LLM dans des environnements de production. Il offre des performances élevées, une facilité d'utilisation et une évolutivité, ce qui en fait un choix idéal pour la construction d'applications basées sur LLM.

Ressources

Dépôt GitHub : https://github.com/huggingface/text-generation-inference
Hugging Face Hub : https://huggingface.co/
Documentation : (Veuillez consulter le README et la documentation dans le dépôt GitHub)