المرحلة الثالثة: البيانات وهندسة الميزات
قائمة منسقة لموارد هندسة الميزات في التعلم الآلي، تغطي طرق وأدوات هندسة الميزات لأنواع البيانات المختلفة مثل البيانات الرقمية والنصية والصور والفئوية والسلاسل الزمنية.
مقدمة عن مشروع Awesome Feature Engineering
نظرة عامة على المشروع
Awesome Feature Engineering هي قائمة منسقة مخصصة لجمع موارد تقنيات هندسة الميزات (Feature Engineering) في تعلم الآلة. يتم صيانة هذا المشروع بواسطة Andrei Khobnia، ويتبع ترخيص Creative Commons Attribution-Noncommercial-ShareAlike 3.0 Unported License.
يوفر هذا المشروع لممارسي تعلم الآلة مستودعًا شاملاً لموارد تقنيات هندسة الميزات، ويغطي أساليب وأدوات هندسة الميزات لأنواع البيانات المختلفة.
تصنيفات المحتوى الرئيسية
1. البيانات الرقمية (Numeric Data)
تحويل البيانات:
- تحويل Box-Cox:
scipy.stats.boxcox
- التحويل اللوغاريتمي:
np.log (x + const)
- تحويل Box-Cox:
هندسة الميزات التلقائية:
Featuretools
: لأتمتة هندسة الميزات
تفاعل الميزات:
sklearn.preprocessing.PolynomialFeatures
: لتوليد الميزات متعددة الحدود- عمليات القسمة
- ميزات تفاعلية أخرى
2. البيانات النصية (Textual Data)
نموذج حقيبة الكلمات:
- نموذج حقيبة الكلمات
- مقدمة لطيفة لنموذج حقيبة الكلمات
sklearn.feature_extraction.text.CountVectorizer
sklearn.feature_extraction.DictVectorizer
sklearn.feature_extraction.FeatureHasher
تقنيات تضمين الكلمات:
تقنيات استخراج الميزات:
- ClearTK - دليل استخراج الميزات
- التعبيرات النمطية (Regular Expressions)
- وسم أجزاء الكلام
- NLTK تصنيف ووسم الكلمات
3. بيانات الصور (Image Data)
استخراج الميزات التقليدي:
استخراج الميزات بالتعلم العميق:
4. البيانات الفئوية (Categorical Data)
الترميز الأحادي الساخن (One-Hot Encoding):
- لماذا يتم الترميز الأحادي الساخن للبيانات في تعلم الآلة؟
- كيفية الترميز الأحادي الساخن لبيانات التسلسل في بايثون
sklearn.preprocessing.OneHotEncoder
Keras - to_categorical
ترميز الهدف (Target Encoding):
تجزئة الميزات (Feature Hashing):
5. بيانات السلاسل الزمنية (Time Series Data)
- استخراج الميزات التلقائي:
6. البيانات الجغرافية المكانية (Geospatial Data)
- تتضمن تقنيات هندسة الميزات المتعلقة بالموقع الجغرافي.
مميزات المشروع
- الشمولية: يغطي أنواع البيانات الرئيسية في تعلم الآلة وتقنيات هندسة الميزات المقابلة لها.
- العملية: يوفر مكتبات أدوات محددة وتطبيقات برمجية.
- المصدر المفتوح: يعتمد ترخيصًا مفتوح المصدر، ويرحب بمساهمات المجتمع.
- الموثوقية: يربط بالوثائق والبرامج التعليمية والموارد الأكاديمية الموثوقة.
- قابلية التشغيل: يوفر مكتبات بايثون محددة وطرق استدعاء الدوال.
القيمة الاستخدامية
هذا المشروع ذو قيمة خاصة للفئات التالية:
- مهندسو تعلم الآلة
- علماء البيانات
- باحثو هندسة الميزات
- المبتدئون في تعلم الآلة
- الممارسون الذين يتطلعون إلى تحسين أداء النموذج
طرق المساهمة
يشجع المشروع مساهمات المجتمع، ويمكن إضافة موارد جديدة أو تحسين المحتوى الحالي عن طريق إنشاء طلبات السحب (pull requests).
الخلاصة
يقدم مشروع Awesome Feature Engineering مستودعًا شاملاً وعمليًا لموارد هندسة الميزات في تعلم الآلة، وهو مرجع مهم لتعلم وتطبيق تقنيات هندسة الميزات. من خلال التصنيف المنهجي وروابط الموارد الغنية، يساعد الممارسين على العثور بسرعة على طرق هندسة الميزات المناسبة لأنواع بيانات محددة.