Home
Login

Troisième étape : Données et ingénierie des caractéristiques

Plus de 70 recettes pratiques de feature engineering en Python, un guide complet couvrant le prétraitement des données, la création, la transformation et l'optimisation des features.

FeatureEngineeringPythonScienceDesDonnéesGitHubTextFreeEnglish

Python Feature Engineering Cookbook : Présentation Détaillée

Aperçu

Le "Python Feature Engineering Cookbook" est un ouvrage technique spécialisé publié par Packt Publishing. Il propose plus de 70 recettes pratiques pour créer, concevoir et transformer des caractéristiques (features) afin de construire des modèles d'apprentissage automatique. Le dépôt de code de cet ouvrage est hébergé sur GitHub, offrant aux apprenants un accès complet au code pratique.

Présentation de l'auteur

Soledad Galli est une scientifique des données en chef expérimentée, avec plus de 10 ans d'expérience au sein d'institutions académiques de renommée mondiale et d'entreprises prestigieuses. Elle a recherché, développé et mis en production des modèles d'apprentissage automatique destinés aux réclamations d'assurance, à l'évaluation du risque de crédit et à la prévention de la fraude. Soledad a reçu le "Data Science Leader Award" en 2018 et a été nommée l'une des voix de LinkedIn dans le domaine de la science des données et de l'analyse en 2019.

Principales caractéristiques du contenu

Couverture des compétences clés

Ce livre couvre les aspects clés suivants :

  • Simplifier le pipeline d'ingénierie des caractéristiques : Utiliser de puissants packages Python pour simplifier le processus d'ingénierie des caractéristiques.
  • Gestion des valeurs manquantes : Maîtriser les techniques d'imputation des valeurs manquantes.
  • Encodage des variables catégorielles : Utiliser diverses techniques pour encoder les variables catégorielles.
  • Extraction de caractéristiques textuelles : Extraire rapidement et efficacement des informations du texte.
  • Développement de caractéristiques à partir de séries temporelles : Développer des caractéristiques à partir de données transactionnelles et de séries temporelles.
  • Combinaison de caractéristiques : Dériver de nouvelles caractéristiques en combinant des variables existantes.
  • Transformation de variables : Apprendre à transformer, discrétiser et mettre à l'échelle les variables.
  • Création de caractéristiques temporelles : Créer des variables informatives à partir de dates et d'heures.

Architecture technique

# Structure de code exemple
def get_first_cabin(row):
    try:
        return row.split()[0]
    except:
        return np.nan

Exigences techniques

Exigences logicielles

Chapitre Logiciel requis Système d'exploitation requis
1-11 Python 3.5+, Distribution Anaconda, IDE (au choix) Windows, Mac OS X, Linux (toute version)

Prérequis d'apprentissage

Cet ouvrage s'adresse aux professionnels de l'apprentissage automatique, aux ingénieurs en IA, aux scientifiques des données, ainsi qu'aux ingénieurs en PNL et en apprentissage par renforcement qui souhaitent optimiser et enrichir leurs modèles d'apprentissage automatique avec les meilleures caractéristiques. Une connaissance préalable de l'apprentissage automatique et de la programmation Python sera utile pour comprendre les concepts abordés dans cet ouvrage.

Organisation du contenu

Structure des chapitres

Tout le code est organisé en dossiers, couvrant un total de 11 chapitres, arrangés dans un ordre logique, du niveau débutant au niveau avancé. Chaque chapitre propose des recettes pratiques détaillées pour aider le lecteur à maîtriser progressivement les différents aspects de l'ingénierie des caractéristiques.

Approche pratique

Le livre adopte le format "Cookbook" (livre de recettes), où chaque recette est un cas pratique complet, comprenant :

  • Description du problème
  • Solution
  • Implémentation du code
  • Explication des résultats

Valeur d'apprentissage

Utilité pratique

L'ingénierie des caractéristiques est d'une grande valeur pour le développement et l'enrichissement des modèles d'apprentissage automatique. Dans cet ouvrage, vous utiliserez les meilleurs outils Python pour simplifier le processus d'ingénierie des caractéristiques, maîtriser les techniques d'ingénierie des caractéristiques, et simplifier et améliorer la qualité du code.

Prêt pour la production

Ce livre ne se contente pas de fournir des connaissances théoriques ; il offre surtout des compétences pratiques et du code directement applicables en environnement de production, aidant les lecteurs à construire des pipelines d'ingénierie des caractéristiques de bout en bout.

Ressources supplémentaires

Matériaux complémentaires

Un fichier PDF contenant les images en couleur des captures d'écran et des diagrammes du livre est également fourni pour améliorer l'expérience d'apprentissage.

Mises à jour des versions

Ce projet a plusieurs versions :

  • Première édition (originale)
  • Deuxième édition (améliorée)
  • Troisième édition (dernière en date)

Chaque version dispose de son propre dépôt de code sur GitHub, continuellement mis à jour et maintenu.

Résumé

Le "Python Feature Engineering Cookbook" est un ouvrage technique d'une grande utilité pratique qui, à travers plus de 70 recettes concrètes, présente systématiquement tous les aspects de l'ingénierie des caractéristiques en Python. Que ce soit pour les débutants ou les scientifiques des données expérimentés, cet ouvrage offre une précieuse expérience pratique et une amélioration des compétences.