Phase 3: Daten- und Feature-Engineering
Eine kuratierte Liste von Ressourcen speziell für Feature Engineering Techniken im Bereich Machine Learning, die Methoden und Werkzeuge für verschiedene Datentypen wie numerische, Text-, Bild-, kategorische und Zeitreihendaten abdeckt.
Awesome Feature Engineering – Projektbeschreibung
Projektübersicht
Awesome Feature Engineering ist eine kuratierte Liste, die sich der Sammlung von Ressourcen zu Feature-Engineering-Techniken im Bereich des maschinellen Lernens widmet. Das Projekt wird von Andrei Khobnia gepflegt und steht unter der Creative Commons Attribution-Noncommercial-ShareAlike 3.0 Unported License.
Es bietet Machine-Learning-Praktikern eine umfassende Ressourcensammlung zu Feature-Engineering-Techniken, die Methoden und Tools für verschiedene Datentypen abdeckt.
Hauptinhaltskategorien
1. Numerische Daten (Numeric Data)
Datentransformationen:
- Box-Cox-Transformation:
scipy.stats.boxcox
- Logarithmische Transformation:
np.log (x + const)
- Box-Cox-Transformation:
Automatisiertes Feature Engineering:
Featuretools
: Für automatisiertes Feature Engineering
Feature-Interaktionen:
sklearn.preprocessing.PolynomialFeatures
: Generierung polynomialer Features- Divisionsoperationen
- Andere interaktive Features
2. Textdaten (Textual Data)
Bag-of-Words-Modell:
- Bag-of-words model
- A Gentle Introduction to the Bag-of-Words Model
sklearn.feature_extraction.text.CountVectorizer
sklearn.feature_extraction.DictVectorizer
sklearn.feature_extraction.FeatureHasher
Word-Embedding-Techniken:
Feature-Extraktionstechniken:
3. Bilddaten (Image Data)
Traditionelle Feature-Extraktion:
Feature-Extraktion mittels Deep Learning:
4. Kategoriale Daten (Categorical Data)
One-Hot-Encoding:
- Why One-Hot Encode Data in Machine Learning?
- How to One Hot Encode Sequence Data in Python
sklearn.preprocessing.OneHotEncoder
Keras - to_categorical
Target Encoding:
Feature Hashing:
5. Zeitreihendaten (Time Series Data)
- Automatische Feature-Extraktion:
6. Geodaten (Geospatial Data)
- Enthält Feature-Engineering-Techniken im Zusammenhang mit geografischen Daten.
Projektmerkmale
- Umfassendheit: Deckt die wichtigsten Datentypen und entsprechende Feature-Engineering-Techniken im maschinellen Lernen ab.
- Praxisorientierung: Bietet konkrete Tool-Bibliotheken und Code-Implementierungen.
- Open Source: Nutzt eine Open-Source-Lizenz und begrüßt Beiträge aus der Community.
- Autorität: Verlinkt auf maßgebliche Dokumentationen, Tutorials und wissenschaftliche Ressourcen.
- Umsetzbarkeit: Stellt spezifische Python-Bibliotheken und Methoden zum Funktionsaufruf bereit.
Nutzen
Das Projekt ist besonders wertvoll für folgende Personengruppen:
- Machine-Learning-Ingenieure
- Datenwissenschaftler
- Feature-Engineering-Forscher
- Machine-Learning-Anfänger
- Praktiker, die die Modellleistung verbessern möchten
Beitragsmöglichkeiten
Das Projekt fördert Beiträge aus der Community. Neue Ressourcen können durch das Erstellen von Pull Requests hinzugefügt oder bestehende Inhalte verbessert werden.
Zusammenfassung
Das Awesome Feature Engineering Projekt bietet eine umfassende und praxisorientierte Ressourcensammlung für das Feature Engineering im maschinellen Lernen und ist ein wichtiges Nachschlagewerk zum Erlernen und Anwenden von Feature-Engineering-Techniken. Durch seine systematische Klassifizierung und die umfangreichen Ressourcenlinks hilft es Praktikern, schnell die passenden Feature-Engineering-Methoden für spezifische Datentypen zu finden.