dmlc/xgboost View GitHub Homepage for Latest Official Releases

XGBoost est une bibliothèque d'amplification de gradient distribuée et optimisée, conçue pour l'efficacité, la flexibilité et la portabilité. Elle implémente des algorithmes d'apprentissage automatique sous le framework d'amplification de gradient.

Apache-2.0C++xgboostdmlc 27.5k Last Updated: October 16, 2025

XGBoost (eXtreme Gradient Boosting)

Aperçu du projet

XGBoost (eXtreme Gradient Boosting) est une bibliothèque d'amplification de gradient distribuée et optimisée, conçue pour l'efficacité, la flexibilité et la portabilité. Elle implémente des algorithmes d'apprentissage automatique dans le cadre de l'amplification de gradient. XGBoost fournit une amplification d'arbres parallèle (également appelée GBDT, GBM) qui peut résoudre rapidement et avec précision de nombreux problèmes de science des données.

Contexte

L'amplification de gradient est une technique d'apprentissage automatique puissante qui a été largement utilisée dans diverses tâches de prédiction. XGBoost a été développé pour résoudre certaines des limitations des algorithmes d'amplification de gradient existants, telles que la lenteur, la faible évolutivité et le manque de flexibilité. XGBoost améliore considérablement les performances des algorithmes d'amplification de gradient en introduisant les optimisations suivantes :

Régularisation : XGBoost utilise la régularisation L1 et L2 pour prévenir le surapprentissage et améliorer la capacité de généralisation du modèle.
Sensibilité aux données éparses : XGBoost peut gérer automatiquement les valeurs manquantes, sans nécessiter de prétraitement des données.
Traitement parallèle : XGBoost prend en charge le calcul parallèle, ce qui permet d'utiliser des CPU multicœurs et des clusters de calcul distribués pour accélérer le processus d'entraînement.
Optimisation du cache : XGBoost optimise les schémas d'accès aux données, améliorant ainsi le taux de succès du cache et accélérant la vitesse d'entraînement.
Évolutivité : XGBoost peut traiter des ensembles de données à grande échelle et prend en charge plusieurs langages de programmation et plateformes.

Caractéristiques principales

Efficacité : XGBoost possède une excellente efficacité de calcul, ce qui permet d'entraîner rapidement des modèles performants.
Flexibilité : XGBoost prend en charge diverses fonctions de perte, mesures d'évaluation et méthodes de régularisation, ce qui lui permet de s'adapter de manière flexible à différentes tâches de prédiction.
Portabilité : XGBoost peut fonctionner sur divers systèmes d'exploitation et plateformes matérielles, notamment Windows, Linux, macOS et GPU.
Évolutivité : XGBoost peut traiter des ensembles de données à grande échelle et prend en charge le calcul distribué.
Régularisation : La régularisation L1 et L2 peut prévenir le surapprentissage et améliorer la capacité de généralisation du modèle.
Sensibilité aux données éparses : Traitement automatique des valeurs manquantes, sans nécessiter de prétraitement des données.
Validation croisée : Fonction de validation croisée intégrée, qui permet d'évaluer facilement les performances du modèle.
Sauvegarde et chargement du modèle : Possibilité de sauvegarder les modèles entraînés sur le disque et de les charger en cas de besoin.
Évaluation de l'importance des caractéristiques : Possibilité d'évaluer la contribution de chaque caractéristique à la prédiction du modèle.

Cas d'utilisation

XGBoost est largement utilisé dans diverses tâches d'apprentissage automatique, notamment :

Classification : Prédiction de la catégorie à laquelle appartient un échantillon, par exemple la détection de spam, la reconnaissance d'images.
Régression : Prédiction de valeurs continues, par exemple la prédiction du prix des logements, la prédiction du cours des actions.
Classement : Classement des résultats de recherche ou des éléments recommandés.
Systèmes de recommandation : Recommandation de produits ou de services susceptibles d'intéresser l'utilisateur, en fonction de son historique.
Détection de fraude : Détection de fraude à la carte de crédit, de fraude en ligne, etc.
Évaluation des risques : Évaluation du risque de défaut de paiement d'un prêt, du risque de sinistre d'assurance, etc.
Traitement du langage naturel : Classification de texte, analyse des sentiments, traduction automatique, etc.
Vision par ordinateur : Classification d'images, détection d'objets, segmentation d'images, etc.

XGBoost a obtenu d'excellents résultats dans de nombreux concours d'apprentissage automatique, tels que les compétitions Kaggle. Il est devenu l'un des algorithmes de choix pour les data scientists et les ingénieurs en apprentissage automatique.