Troisième étape : Données et ingénierie des caractéristiques
Une liste triée sur le volet de ressources dédiées aux techniques d'ingénierie des caractéristiques pour l'apprentissage automatique, couvrant les méthodes et outils d'ingénierie des caractéristiques pour divers types de données tels que les données numériques, textuelles, d'image, catégorielles, de séries temporelles, etc.
Présentation du projet Awesome Feature Engineering
Aperçu du projet
Awesome Feature Engineering est une liste sélectionnée de ressources techniques dédiées à l'ingénierie des caractéristiques en apprentissage automatique. Le projet est maintenu par Andrei Khobnia et est sous licence Creative Commons Attribution-Noncommercial-ShareAlike 3.0 Unported License.
Il offre aux praticiens de l'apprentissage automatique une bibliothèque complète de ressources techniques d'ingénierie des caractéristiques, couvrant les méthodes et outils pour différents types de données.
Principales catégories de contenu
1. Données numériques (Numeric Data)
Transformation des données :
- Transformation de Box-Cox :
scipy.stats.boxcox
- Transformation logarithmique :
np.log (x + const)
- Transformation de Box-Cox :
Ingénierie des caractéristiques automatisée :
Featuretools
: pour l'ingénierie des caractéristiques automatisée
Interaction des caractéristiques :
sklearn.preprocessing.PolynomialFeatures
: génération de caractéristiques polynomiales- Opérations de division
- Autres caractéristiques interactives
2. Données textuelles (Textual Data)
Modèle sac de mots :
- Bag-of-words model
- A Gentle Introduction to the Bag-of-Words Model
sklearn.feature_extraction.text.CountVectorizer
sklearn.feature_extraction.DictVectorizer
sklearn.feature_extraction.FeatureHasher
Intégration de mots (Word embedding) :
Techniques d'extraction de caractéristiques :
3. Données d'image (Image Data)
Extraction de caractéristiques traditionnelles :
Extraction de caractéristiques par apprentissage profond :
4. Données catégorielles (Categorical Data)
Encodage one-hot :
- Why One-Hot Encode Data in Machine Learning?
- How to One Hot Encode Sequence Data in Python
sklearn.preprocessing.OneHotEncoder
Keras - to_categorical
Encodage par cible (Target encoding) :
Hachage de caractéristiques (Feature Hashing) :
5. Données de séries temporelles (Time Series Data)
- Extraction automatique de caractéristiques :
6. Données géospatiales (Geospatial Data)
- Inclut les techniques d'ingénierie des caractéristiques liées à la géolocalisation.
Caractéristiques du projet
- Exhaustivité : couvre les principaux types de données et les techniques d'ingénierie des caractéristiques correspondantes en apprentissage automatique.
- Aspect pratique : fournit des bibliothèques d'outils et des implémentations de code concrètes.
- Caractère open source : utilise une licence open source et encourage les contributions de la communauté.
- Autorité : renvoie à des documentations, tutoriels et ressources académiques fiables.
- Aspect opérationnel : propose des bibliothèques Python spécifiques et des méthodes d'appel de fonctions.
Utilité
Ce projet est particulièrement utile pour les personnes suivantes :
- Ingénieurs en apprentissage automatique
- Scientifiques des données
- Chercheurs en ingénierie des caractéristiques
- Débutants en apprentissage automatique
- Praticiens souhaitant améliorer les performances de leurs modèles
Comment contribuer
Le projet encourage les contributions de la communauté, en créant des pull requests pour ajouter de nouvelles ressources ou améliorer le contenu existant.
Résumé
Le projet Awesome Feature Engineering offre une bibliothèque de ressources complète et pratique pour l'ingénierie des caractéristiques en apprentissage automatique, constituant une référence essentielle pour l'apprentissage et l'application des techniques d'ingénierie des caractéristiques. Grâce à une classification systématique et à de nombreux liens vers des ressources, il aide les praticiens à trouver rapidement les méthodes d'ingénierie des caractéristiques adaptées à des types de données spécifiques.