dmlc/xgboost View GitHub Homepage for Latest Official Releases

XGBoost é uma biblioteca de aumento de gradiente distribuída e otimizada, projetada para ser eficiente, flexível e portátil. Implementa algoritmos de aprendizado de máquina sob a estrutura de aumento de gradiente.

Apache-2.0C++xgboostdmlc 27.5k Last Updated: October 16, 2025

XGBoost (eXtreme Gradient Boosting)

Visão Geral do Projeto

XGBoost (eXtreme Gradient Boosting) é uma biblioteca de boosting de gradiente distribuída e otimizada, projetada para ser eficiente, flexível e portátil. Implementa algoritmos de aprendizado de máquina sob o framework de boosting de gradiente. XGBoost fornece boosting de árvore paralela (também conhecido como GBDT, GBM) que resolve muitos problemas de ciência de dados de forma rápida e precisa.

Contexto

Boosting de gradiente é uma técnica poderosa de aprendizado de máquina que tem sido amplamente utilizada em várias tarefas de previsão. O XGBoost surgiu para resolver algumas das limitações dos algoritmos de boosting de gradiente existentes, como lentidão, baixa escalabilidade e falta de flexibilidade. O XGBoost melhorou significativamente o desempenho dos algoritmos de boosting de gradiente ao introduzir as seguintes otimizações:

Regularização: XGBoost usa regularização L1 e L2 para prevenir overfitting e melhorar a capacidade de generalização do modelo.
Consciência da Esparsidade: XGBoost pode lidar automaticamente com valores ausentes, eliminando a necessidade de pré-processamento de dados.
Processamento Paralelo: XGBoost suporta computação paralela, permitindo o uso de CPUs multi-core e clusters de computação distribuída para acelerar o processo de treinamento.
Otimização de Cache: XGBoost otimiza os padrões de acesso a dados, melhorando a taxa de acertos de cache e, assim, acelerando a velocidade de treinamento.
Escalabilidade: XGBoost pode lidar com conjuntos de dados em larga escala e suporta várias linguagens de programação e plataformas.

Características Principais

Eficiência: XGBoost possui excelente eficiência computacional, permitindo treinar modelos de alto desempenho rapidamente.
Flexibilidade: XGBoost suporta várias funções de perda, métricas de avaliação e métodos de regularização, permitindo que ele se adapte de forma flexível a diferentes tarefas de previsão.
Portabilidade: XGBoost pode ser executado em vários sistemas operacionais e plataformas de hardware, incluindo Windows, Linux, macOS e GPU.
Escalabilidade: XGBoost pode lidar com conjuntos de dados em larga escala e suporta computação distribuída.
Regularização: A regularização L1 e L2 pode prevenir overfitting e melhorar a capacidade de generalização do modelo.
Consciência da Esparsidade: Lida automaticamente com valores ausentes, eliminando a necessidade de pré-processamento de dados.
Validação Cruzada: Funcionalidade de validação cruzada integrada, que facilita a avaliação do desempenho do modelo.
Salvar e Carregar Modelos: Permite salvar modelos treinados no disco e carregá-los quando necessário.
Avaliação da Importância das Características: Permite avaliar a contribuição de cada característica para a previsão do modelo.

Cenários de Aplicação

XGBoost é amplamente utilizado em várias tarefas de aprendizado de máquina, incluindo:

Classificação: Prever a categoria à qual uma amostra pertence, como detecção de spam, reconhecimento de imagem.
Regressão: Prever valores contínuos, como previsão de preços de imóveis, previsão de preços de ações.
Ordenação: Ordenar resultados de pesquisa ou itens recomendados.
Sistemas de Recomendação: Recomendar produtos ou serviços que possam interessar aos usuários, com base em seu histórico de comportamento.
Detecção de Fraude: Detectar fraudes com cartão de crédito, fraudes online, etc.
Avaliação de Risco: Avaliar o risco de inadimplência de empréstimos, o risco de sinistros de seguros, etc.
Processamento de Linguagem Natural: Classificação de texto, análise de sentimento, tradução automática, etc.
Visão Computacional: Classificação de imagem, detecção de objetos, segmentação de imagem, etc.

XGBoost obteve excelentes resultados em muitas competições de aprendizado de máquina, como as competições do Kaggle. Tornou-se um dos algoritmos preferidos por cientistas de dados e engenheiros de aprendizado de máquina.