Phase 3: Daten- und Feature-Engineering
Über 70 Python Feature Engineering Praxisrezepte, ein umfassender Leitfaden für Datenvorverarbeitung, Feature-Erstellung, Transformation und Optimierung
Detaillierte Vorstellung des Python Feature Engineering Cookbook
Überblick
Das Python Feature Engineering Cookbook ist ein Fachbuch, das von Packt Publishing veröffentlicht wurde. Es bietet über 70 praktische Rezepte zum Erstellen, Entwickeln und Transformieren von Merkmalen für den Aufbau von Machine-Learning-Modellen. Das Code-Repository des Buches ist auf GitHub gehostet und stellt den Lernenden den vollständigen praktischen Code zur Verfügung.
Über den Autor
Soledad Galli ist eine erfahrene Lead Data Scientist mit über 10 Jahren Erfahrung in weltweit führenden akademischen Institutionen und renommierten Unternehmen. Sie hat Machine-Learning-Modelle für Versicherungsansprüche, Kreditrisikobewertung und Betrugsprävention erforscht, entwickelt und in Produktion gebracht. Soledad erhielt 2018 den Data Science Leader Award und wurde 2019 als eine der Stimmen im Bereich Data Science und Analytics auf LinkedIn ausgezeichnet.
Hauptmerkmale des Inhalts
Abgedeckte Kernkompetenzen
Dieses Buch behandelt die folgenden spannenden Funktionen:
- Vereinfachung der Feature-Engineering-Pipeline: Vereinfachen Sie den Feature-Engineering-Prozess mit leistungsstarken Python-Paketen.
- Umgang mit fehlenden Werten: Beherrschen Sie die Techniken zur Imputation fehlender Werte.
- Kodierung kategorialer Variablen: Kodieren Sie kategoriale Variablen mit verschiedenen Techniken.
- Extraktion von Textmerkmalen: Extrahieren Sie schnell und effizient Erkenntnisse aus Texten.
- Entwicklung von Zeitreihenmerkmalen: Entwickeln Sie Merkmale aus Transaktions- und Zeitreihendaten.
- Merkmalskombination: Leiten Sie neue Merkmale durch Kombination bestehender Variablen ab.
- Variablentransformation: Erfahren Sie, wie Sie Variablen transformieren, diskretisieren und skalieren.
- Erstellung von Zeitmerkmalen: Erstellen Sie informative Variablen aus Datum und Uhrzeit.
Technische Architektur
# Beispiel-Code-Struktur
def get_first_cabin(row):
try:
return row.split()[0]
except:
return np.nan
Technische Anforderungen
Softwareanforderungen
Kapitel | Erforderliche Software | Betriebssystemanforderungen |
---|---|---|
1-11 | Python 3.5+, Anaconda Distribution, IDE (persönliche Präferenz) | Windows, Mac OS X, Linux (jede Version) |
Lernvoraussetzungen
Dieses Buch ist für Machine-Learning-Experten, KI-Ingenieure, Datenwissenschaftler sowie NLP- und Reinforcement-Learning-Ingenieure geeignet, die ihre Machine-Learning-Modelle mit den besten Features optimieren und anreichern möchten. Kenntnisse in Machine Learning und Python-Programmierung sind hilfreich, um die in diesem Buch behandelten Konzepte zu verstehen.
Inhaltsorganisation
Kapitelstruktur
Der gesamte Code ist in Ordnern organisiert und umfasst insgesamt 11 Kapitel, die in einer natürlichen Reihenfolge von grundlegend bis fortgeschritten angeordnet sind. Jedes Kapitel bietet detaillierte praktische Rezepte, die den Lesern helfen, die verschiedenen Aspekte des Feature Engineering schrittweise zu beherrschen.
Praxisorientierung
Das Buch ist im "Kochbuch"-Format aufgebaut, wobei jedes Rezept ein vollständiger praktischer Fall ist, der Folgendes umfasst:
- Problembeschreibung
- Lösung
- Code-Implementierung
- Ergebnisinterpretation
Lernwert
Praktischer Nutzen
Feature Engineering ist für die Entwicklung und Anreicherung von Machine-Learning-Modellen von unschätzbarem Wert. In diesem Buch werden Sie die besten Python-Tools verwenden, um den Feature-Engineering-Prozess zu vereinfachen, Feature-Engineering-Techniken zu beherrschen und die Codequalität zu vereinfachen und zu verbessern.
Produktionsreife
Dieses Buch vermittelt nicht nur theoretisches Wissen, sondern vor allem praktische Fähigkeiten und Code, die direkt in Produktionsumgebungen angewendet werden können, um Lesern beim Aufbau von End-to-End-Feature-Engineering-Pipelines zu helfen.
Zusätzliche Ressourcen
Zusätzliche Materialien
Es wird auch eine PDF-Datei mit farbigen Bildern der Screenshots/Diagramme aus dem Buch bereitgestellt, um das Lernerlebnis zu verbessern.
Versionsaktualisierungen
Dieses Projekt hat mehrere Versionen:
- Erste Auflage (Original)
- Zweite Auflage (Erweitert)
- Dritte Auflage (Neueste)
Jede Version hat ein entsprechendes Code-Repository auf GitHub und wird kontinuierlich aktualisiert und gepflegt.
Zusammenfassung
Das Python Feature Engineering Cookbook ist ein äußerst praktisches Fachbuch, das anhand von über 70 praxisnahen Rezepten systematisch alle Aspekte des Python Feature Engineering vorstellt. Sowohl Anfänger als auch erfahrene Datenwissenschaftler können daraus wertvolle praktische Erfahrungen und Kompetenzerweiterungen gewinnen.