dmlc/xgboost View GitHub Homepage for Latest Official Releases

XGBoost es una biblioteca de aumento de gradiente distribuida y optimizada, diseñada para ser eficiente, flexible y portátil. Implementa algoritmos de aprendizaje automático bajo el marco de aumento de gradiente.

Apache-2.0C++xgboostdmlc 27.5k Last Updated: October 16, 2025

XGBoost (eXtreme Gradient Boosting)

Resumen del Proyecto

XGBoost (eXtreme Gradient Boosting) es una biblioteca de boosting de gradiente distribuida y optimizada, diseñada para ser eficiente, flexible y portable. Implementa algoritmos de aprendizaje automático bajo el marco de boosting de gradiente. XGBoost proporciona boosting de árboles en paralelo (también conocido como GBDT, GBM), que puede resolver de forma rápida y precisa muchos problemas de ciencia de datos.

Antecedentes

El boosting de gradiente es una técnica poderosa de aprendizaje automático que se ha utilizado ampliamente en diversas tareas de predicción. XGBoost surgió para abordar algunas de las limitaciones de los algoritmos de boosting de gradiente existentes, como la lentitud, la baja escalabilidad y la falta de flexibilidad. XGBoost mejora significativamente el rendimiento de los algoritmos de boosting de gradiente mediante la introducción de las siguientes optimizaciones:

Regularización: XGBoost utiliza la regularización L1 y L2 para prevenir el sobreajuste y mejorar la capacidad de generalización del modelo.
Conciencia de la dispersión: XGBoost puede manejar automáticamente los valores faltantes, sin necesidad de preprocesamiento de datos.
Procesamiento paralelo: XGBoost admite el cálculo paralelo, que puede utilizar CPU de múltiples núcleos y clústeres de computación distribuida para acelerar el proceso de entrenamiento.
Optimización de la caché: XGBoost optimiza los patrones de acceso a los datos, mejorando la tasa de aciertos de la caché, lo que acelera la velocidad de entrenamiento.
Escalabilidad: XGBoost puede manejar conjuntos de datos a gran escala y admite múltiples lenguajes de programación y plataformas.

Características Principales

Eficiencia: XGBoost tiene una excelente eficiencia computacional y puede entrenar rápidamente modelos de alto rendimiento.
Flexibilidad: XGBoost admite múltiples funciones de pérdida, métricas de evaluación y métodos de regularización, lo que permite una adaptación flexible a diferentes tareas de predicción.
Portabilidad: XGBoost puede ejecutarse en múltiples sistemas operativos y plataformas de hardware, incluidos Windows, Linux, macOS y GPU.
Escalabilidad: XGBoost puede manejar conjuntos de datos a gran escala y admite la computación distribuida.
Regularización: La regularización L1 y L2 puede prevenir el sobreajuste y mejorar la capacidad de generalización del modelo.
Conciencia de la dispersión: Manejo automático de valores faltantes, sin necesidad de preprocesamiento de datos.
Validación cruzada: Funcionalidad de validación cruzada incorporada, que facilita la evaluación del rendimiento del modelo.
Guardado y carga de modelos: Se pueden guardar los modelos entrenados en el disco y cargarlos cuando sea necesario.
Evaluación de la importancia de las características: Se puede evaluar la contribución de cada característica a la predicción del modelo.

Casos de Uso

XGBoost se utiliza ampliamente en diversas tareas de aprendizaje automático, que incluyen:

Clasificación: Predicción de la categoría a la que pertenece una muestra, como la detección de spam, el reconocimiento de imágenes.
Regresión: Predicción de valores continuos, como la predicción del precio de la vivienda, la predicción del precio de las acciones.
Ranking: Ordenación de resultados de búsqueda o elementos recomendados.
Sistemas de recomendación: Recomendación de productos o servicios que puedan interesar a los usuarios en función de su historial de comportamiento.
Detección de fraude: Detección de fraude con tarjetas de crédito, fraude en línea, etc.
Evaluación de riesgos: Evaluación del riesgo de incumplimiento de préstamos, el riesgo de reclamaciones de seguros, etc.
Procesamiento del lenguaje natural: Clasificación de texto, análisis de sentimientos, traducción automática, etc.
Visión por computadora: Clasificación de imágenes, detección de objetos, segmentación de imágenes, etc.

XGBoost ha logrado excelentes resultados en muchas competiciones de aprendizaje automático, como las competiciones de Kaggle. Se ha convertido en uno de los algoritmos preferidos por los científicos de datos y los ingenieros de aprendizaje automático.