Machine Learning

[ML] Feature Engineering

주댕이 2024. 3. 5. 14:51

# Feature Engineering

  • 머신러닝 모델의 성능을 향상시키기 위해 데이터셋에서 새로운 피처를 생성하거나 기존의 피처를 변형하는 과정
  • 사용되는 알고리즘에 적합한 데이터셋으로 만들기 위해 원 데이터에서 피처를 선택, 수정, 생성하는 과정을 포함한다.
  • 머신러닝 파이프라인에서 중요한 단계로, 피처의 품질이 모델의 성능에 큰 영향을 미칠 수 있다.

 

# Feature Selection

  • 데이터셋에서 가장 관련성이 높은 피처를 선택하고 관련성이 낮거나 중복된 피처를 제거한다.
  • univariate feature selection, recursive feature elimination, feature importance ranking 등이 있다.

 

# Feature Transformation

  • 피처를 변환하여 모델이 이해하기 쉽거나 더 많은 정보를 담을 수 있도록 한다.
  • scaling, normalization, binning, log/box-cox transformations 등이 있다.

 

# Feature Encoding

  • 범주형 변수를 머신러닝 알고리즘이 사용할 수 있는 수치적 표현으로 변환한다.
  • one-hot encoding, label encoding, target encoding, frequency encoding 등이 있다.

 

# Feature Creation

  • 기존의 피처에서 추가적인 정보나 관계를 포착하는 새로운 피처를 생성한다.
  • polynomial features, interaction features, domain-specific feature engineering 등이 있다.

 

# Handling Missing Values

  • 결측값 또는 누락된 값에 대해 mean/median imputation, mode imputation, predictive imputation 등의 기법을 사용한다.

 

# Dimensionality Reduction

  • 데이터셋의 피처 수를 줄이면서 가능한 많은 정보를 보존한다.
  • principal component analysis (PCA), singular value decomposition (SVD), t-distributed stochastic neighbor embedding (t-SNE) 등이 있다.

 

# Temporal Features

  • timestamps, seasonality, trends, periodic patterns  등과 같은 시계열 정보를 데이터셋에 포함시킨다.

 

# Feature Scaling

  • 피처의 범위나 분포를 유사하게 만들어 주어 일부 알고리즘의 수렴 및 성능을 향상시킨다.
  • min-max scaling, standardization, robust scaling 등이 있다.
728x90

'Machine Learning' 카테고리의 다른 글

[sklearn] 데이터 인코딩  (0) 2024.03.05
[sklearn] GridSearchCV  (0) 2024.03.05
[ML] 하이퍼 파라미터 튜닝  (0) 2024.03.05
[sklearn] Stratified K 폴드  (2) 2024.03.05
[sklearn] K 폴드 교차 검증  (0) 2024.03.05