dmlc/xgboost View GitHub Homepage for Latest Official Releases

XGBoost ist eine optimierte, verteilte Gradient Boosting Bibliothek, die auf Effizienz, Flexibilität und Portabilität ausgelegt ist. Sie implementiert Machine-Learning-Algorithmen im Rahmen des Gradient Boosting.

Apache-2.0C++xgboostdmlc 27.5k Last Updated: October 16, 2025

XGBoost (eXtreme Gradient Boosting)

Projektübersicht

XGBoost (eXtreme Gradient Boosting) ist eine optimierte, verteilte Gradient Boosting-Bibliothek, die auf Effizienz, Flexibilität und Portabilität ausgelegt ist. Sie implementiert Machine-Learning-Algorithmen im Rahmen des Gradient Boosting. XGBoost bietet paralleles Tree Boosting (auch bekannt als GBDT, GBM) und kann viele Data-Science-Probleme schnell und präzise lösen.

Hintergrund

Gradient Boosting ist eine leistungsstarke Machine-Learning-Technik, die in einer Vielzahl von Vorhersageaufgaben weit verbreitet ist. XGBoost wurde entwickelt, um einige der Einschränkungen bestehender Gradient-Boosting-Algorithmen zu beheben, wie z. B. langsame Geschwindigkeit, schlechte Skalierbarkeit und mangelnde Flexibilität. XGBoost verbessert die Leistung von Gradient-Boosting-Algorithmen durch die Einführung der folgenden Optimierungen erheblich:

Regularisierung: XGBoost verwendet L1- und L2-Regularisierung, um Overfitting zu verhindern und die Generalisierungsfähigkeit des Modells zu verbessern.
Sparse-Awareness: XGBoost kann fehlende Werte automatisch verarbeiten, ohne dass eine Datenvorverarbeitung erforderlich ist.
Parallele Verarbeitung: XGBoost unterstützt parallele Berechnungen und kann Mehrkern-CPUs und verteilte Rechencluster nutzen, um den Trainingsprozess zu beschleunigen.
Cache-Optimierung: XGBoost optimiert Datenzugriffsmuster, erhöht die Cache-Trefferrate und beschleunigt so die Trainingsgeschwindigkeit.
Skalierbarkeit: XGBoost kann große Datensätze verarbeiten und unterstützt mehrere Programmiersprachen und Plattformen.

Kernfunktionen

Effizienz: XGBoost verfügt über eine hervorragende Recheneffizienz und kann schnell hochleistungsfähige Modelle trainieren.
Flexibilität: XGBoost unterstützt verschiedene Verlustfunktionen, Bewertungsmetriken und Regularisierungsmethoden und kann flexibel an verschiedene Vorhersageaufgaben angepasst werden.
Portabilität: XGBoost kann auf verschiedenen Betriebssystemen und Hardwareplattformen ausgeführt werden, darunter Windows, Linux, macOS und GPU.
Skalierbarkeit: XGBoost kann große Datensätze verarbeiten und unterstützt verteiltes Rechnen.
Regularisierung: L1- und L2-Regularisierung können Overfitting verhindern und die Generalisierungsfähigkeit des Modells verbessern.
Sparse-Awareness: Automatische Verarbeitung fehlender Werte, ohne dass eine Datenvorverarbeitung erforderlich ist.
Kreuzvalidierung: Integrierte Kreuzvalidierungsfunktion zur einfachen Bewertung der Modellleistung.
Modellspeicherung und -laden: Trainierte Modelle können auf der Festplatte gespeichert und bei Bedarf geladen werden.
Merkmalswichtigkeitsbewertung: Kann den Beitrag jedes Merkmals zur Modellvorhersage bewerten.

Anwendungsbereiche

XGBoost wird häufig in verschiedenen Machine-Learning-Aufgaben eingesetzt, darunter:

Klassifizierung: Vorhersage der Kategorie, zu der eine Stichprobe gehört, z. B. Spam-Erkennung, Bilderkennung.
Regression: Vorhersage von kontinuierlichen Werten, z. B. Hauspreisvorhersage, Aktienkursprognose.
Sortierung: Sortierung von Suchergebnissen oder Empfehlungselementen.
Empfehlungssysteme: Empfehlung von Produkten oder Dienstleistungen, an denen Benutzer interessiert sein könnten, basierend auf dem bisherigen Verhalten der Benutzer.
Betrugserkennung: Erkennung von Kreditkartenbetrug, Online-Betrug usw.
Risikobewertung: Bewertung des Ausfallrisikos von Krediten, des Risikos von Versicherungsansprüchen usw.
Natural Language Processing: Textklassifizierung, Stimmungsanalyse, maschinelle Übersetzung usw.
Computer Vision: Bildklassifizierung, Objekterkennung, Bildsegmentierung usw.

XGBoost hat in vielen Machine-Learning-Wettbewerben, wie z. B. Kaggle-Wettbewerben, hervorragende Ergebnisse erzielt. Es ist zu einem der bevorzugten Algorithmen für Data Scientists und Machine-Learning-Ingenieure geworden.