Home
Login

3단계: 데이터 및 특징 엔지니어링

머신러닝 특징 엔지니어링 기술 리소스를 전문적으로 수집한 엄선된 목록입니다. 숫자, 텍스트, 이미지, 분류, 시계열 등 다양한 데이터 유형의 특징 엔지니어링 방법 및 도구를 다룹니다.

FeatureEngineeringMachineLearningDataScienceGitHubTextFreeEnglish

Awesome 특징 공학 프로젝트 소개

프로젝트 개요

Awesome 특징 공학은 머신러닝 특징 공학 기술 자료를 전문적으로 수집하는 엄선된 목록입니다. 이 프로젝트는 Andrei Khobnia가 유지보수하며, Creative Commons Attribution-Noncommercial-ShareAlike 3.0 Unported License 라이선스를 따릅니다.

이 프로젝트는 머신러닝 실무자에게 포괄적인 특징 공학 기술 자료를 제공하며, 다양한 데이터 유형의 특징 공학 방법과 도구를 다룹니다.

주요 내용 분류

1. 수치 데이터 (Numeric Data)

  • 데이터 변환:

    • Box-Cox 변환: scipy.stats.boxcox
    • 로그 변환: np.log (x + const)
  • 자동 특징 공학:

    • Featuretools: 자동 특징 공학용
  • 특징 상호작용:

    • sklearn.preprocessing.PolynomialFeatures: 다항식 특징 생성
    • 나눗셈 연산
    • 기타 상호작용 특징

2. 텍스트 데이터 (Textual Data)

3. 이미지 데이터 (Image Data)

4. 범주형 데이터 (Categorical Data)

5. 시계열 데이터 (Time Series Data)

6. 지리 공간 데이터 (Geospatial Data)

  • 지리적 위치 관련 특징 공학 기술 포함

프로젝트 특징

  1. 포괄성: 머신러닝의 주요 데이터 유형과 해당 특징 공학 기술을 다룹니다.
  2. 실용성: 구체적인 도구 라이브러리와 코드 구현을 제공합니다.
  3. 오픈소스: 오픈소스 라이선스를 채택하며, 커뮤니티 기여를 환영합니다.
  4. 권위성: 권위 있는 문서, 튜토리얼 및 학술 자료로 연결됩니다.
  5. 실행 가능성: 구체적인 Python 라이브러리 및 함수 호출 방법을 제공합니다.

활용 가치

이 프로젝트는 다음 대상에게 특히 유용합니다:

  • 머신러닝 엔지니어
  • 데이터 과학자
  • 특징 공학 연구원
  • 머신러닝 초보자
  • 모델 성능 향상을 희망하는 실무자

기여 방법

프로젝트는 커뮤니티 기여를 장려하며, pull requests를 생성하여 새로운 자료를 추가하거나 기존 내용을 개선할 수 있습니다.

요약

Awesome 특징 공학 프로젝트는 머신러닝 특징 공학을 위한 포괄적이고 실용적인 자료 저장소를 제공하며, 특징 공학 기술을 학습하고 적용하는 데 중요한 참고 자료입니다. 체계적인 분류와 풍부한 자료 링크를 통해 실무자들이 특정 데이터 유형에 적합한 특징 공학 방법을 빠르게 찾을 수 있도록 돕습니다.