# Feature Engineering
- 머신러닝 모델의 성능을 향상시키기 위해 데이터셋에서 새로운 피처를 생성하거나 기존의 피처를 변형하는 과정
- 사용되는 알고리즘에 적합한 데이터셋으로 만들기 위해 원 데이터에서 피처를 선택, 수정, 생성하는 과정을 포함한다.
- 머신러닝 파이프라인에서 중요한 단계로, 피처의 품질이 모델의 성능에 큰 영향을 미칠 수 있다.
# Feature Selection
- 데이터셋에서 가장 관련성이 높은 피처를 선택하고 관련성이 낮거나 중복된 피처를 제거한다.
- univariate feature selection, recursive feature elimination, feature importance ranking 등이 있다.
# Feature Transformation
- 피처를 변환하여 모델이 이해하기 쉽거나 더 많은 정보를 담을 수 있도록 한다.
- scaling, normalization, binning, log/box-cox transformations 등이 있다.
# Feature Encoding
- 범주형 변수를 머신러닝 알고리즘이 사용할 수 있는 수치적 표현으로 변환한다.
- one-hot encoding, label encoding, target encoding, frequency encoding 등이 있다.
# Feature Creation
- 기존의 피처에서 추가적인 정보나 관계를 포착하는 새로운 피처를 생성한다.
- polynomial features, interaction features, domain-specific feature engineering 등이 있다.
# Handling Missing Values
- 결측값 또는 누락된 값에 대해 mean/median imputation, mode imputation, predictive imputation 등의 기법을 사용한다.
# Dimensionality Reduction
- 데이터셋의 피처 수를 줄이면서 가능한 많은 정보를 보존한다.
- principal component analysis (PCA), singular value decomposition (SVD), t-distributed stochastic neighbor embedding (t-SNE) 등이 있다.
# Temporal Features
- timestamps, seasonality, trends, periodic patterns 등과 같은 시계열 정보를 데이터셋에 포함시킨다.
# Feature Scaling
- 피처의 범위나 분포를 유사하게 만들어 주어 일부 알고리즘의 수렴 및 성능을 향상시킨다.
- min-max scaling, standardization, robust scaling 등이 있다.
728x90
'Machine Learning' 카테고리의 다른 글
[sklearn] 데이터 인코딩 (0) | 2024.03.05 |
---|---|
[sklearn] GridSearchCV (0) | 2024.03.05 |
[ML] 하이퍼 파라미터 튜닝 (0) | 2024.03.05 |
[sklearn] Stratified K 폴드 (2) | 2024.03.05 |
[sklearn] K 폴드 교차 검증 (0) | 2024.03.05 |