3단계: 데이터 및 특징 엔지니어링
머신러닝 특징 엔지니어링 기술 리소스를 전문적으로 수집한 엄선된 목록입니다. 숫자, 텍스트, 이미지, 분류, 시계열 등 다양한 데이터 유형의 특징 엔지니어링 방법 및 도구를 다룹니다.
Awesome 특징 공학 프로젝트 소개
프로젝트 개요
Awesome 특징 공학은 머신러닝 특징 공학 기술 자료를 전문적으로 수집하는 엄선된 목록입니다. 이 프로젝트는 Andrei Khobnia가 유지보수하며, Creative Commons Attribution-Noncommercial-ShareAlike 3.0 Unported License 라이선스를 따릅니다.
이 프로젝트는 머신러닝 실무자에게 포괄적인 특징 공학 기술 자료를 제공하며, 다양한 데이터 유형의 특징 공학 방법과 도구를 다룹니다.
주요 내용 분류
1. 수치 데이터 (Numeric Data)
데이터 변환:
- Box-Cox 변환:
scipy.stats.boxcox
- 로그 변환:
np.log (x + const)
- Box-Cox 변환:
자동 특징 공학:
Featuretools
: 자동 특징 공학용
특징 상호작용:
sklearn.preprocessing.PolynomialFeatures
: 다항식 특징 생성- 나눗셈 연산
- 기타 상호작용 특징
2. 텍스트 데이터 (Textual Data)
BoW (Bag-of-words) 모델:
- Bag-of-words model
- A Gentle Introduction to the Bag-of-Words Model
sklearn.feature_extraction.text.CountVectorizer
sklearn.feature_extraction.DictVectorizer
sklearn.feature_extraction.FeatureHasher
단어 임베딩 기술:
특징 추출 기술:
3. 이미지 데이터 (Image Data)
전통적인 특징 추출:
딥러닝 특징 추출:
4. 범주형 데이터 (Categorical Data)
원-핫 인코딩:
- Why One-Hot Encode Data in Machine Learning?
- How to One Hot Encode Sequence Data in Python
sklearn.preprocessing.OneHotEncoder
Keras - to_categorical
타겟 인코딩:
특징 해싱:
5. 시계열 데이터 (Time Series Data)
- 자동 특징 추출:
6. 지리 공간 데이터 (Geospatial Data)
- 지리적 위치 관련 특징 공학 기술 포함
프로젝트 특징
- 포괄성: 머신러닝의 주요 데이터 유형과 해당 특징 공학 기술을 다룹니다.
- 실용성: 구체적인 도구 라이브러리와 코드 구현을 제공합니다.
- 오픈소스: 오픈소스 라이선스를 채택하며, 커뮤니티 기여를 환영합니다.
- 권위성: 권위 있는 문서, 튜토리얼 및 학술 자료로 연결됩니다.
- 실행 가능성: 구체적인 Python 라이브러리 및 함수 호출 방법을 제공합니다.
활용 가치
이 프로젝트는 다음 대상에게 특히 유용합니다:
- 머신러닝 엔지니어
- 데이터 과학자
- 특징 공학 연구원
- 머신러닝 초보자
- 모델 성능 향상을 희망하는 실무자
기여 방법
프로젝트는 커뮤니티 기여를 장려하며, pull requests를 생성하여 새로운 자료를 추가하거나 기존 내용을 개선할 수 있습니다.
요약
Awesome 특징 공학 프로젝트는 머신러닝 특징 공학을 위한 포괄적이고 실용적인 자료 저장소를 제공하며, 특징 공학 기술을 학습하고 적용하는 데 중요한 참고 자료입니다. 체계적인 분류와 풍부한 자료 링크를 통해 실무자들이 특정 데이터 유형에 적합한 특징 공학 방법을 빠르게 찾을 수 있도록 돕습니다.