주댕이의 공부 기록

[Tableau] 막대 차트

# 개념막대 차트: 데이터를 막대로 나타내는 차트로, 값을 비교할 때 주로 사용한다. 가로 또는 세로 방향으로 늘어뜨린 막대들이 데이터를 시각적으로 표현하며, 막대의 길이는 데이터 값의 크기에 비례한다.막대 차트의 특징과 장점막대의 길이나 높이로 데이터 값을 비교할 수 있어, 상대적인 크기 차이를 빠르게 파악할 수 있다.간단한 구조로 데이터를 쉽게 이해할 수 있도록 도와주며, 축과 레이블을 통해 데이터를 명확하게 표현할 수 있다.데이터의 상승과 하락을 시각적으로 보여주고, 데이터의 패턴이나 추세를 시각화하는 데 유용하다.막대 차트는 데이터의 분포를 직관적으로 파악할 수 있다. 또한, 여러 개의 막대를 나란히 놓아 비교 분석을 할 수 있으며, 시각적 요소를 추가하여 정보를 더욱 명확하게 전달할 수 있다. ..

Tableau 2024.09.06

[Tableau] 그리드 차트

# 개념그리드 차트: 행과 열로 이루어진 격자 형태로, 각 셀에 데이터를 표현하는 차트. 엑셀의 피벗테이블과 유사하다.그리드 차트의 특징과 장점데이터의 구성과 패턴을 쉽게 파악할 수 있다 -> 데이터의 특성과 상호 관계를 시각적으로 이해하기 쉽다.특정 변수나 항목을 다른 변수나 항목과 비교해 상대적인 차이를 시각화할 수 있다.다양한 유형의 데이터를 표현할 수 있다.대용량의 데이터를 처리하는 데 유용하고, 데이터를 조직화하여 관리할 수 있다.그리드 차트는 데이터를 구성하고 비교하며 분석하는 데 효과적인 도구로 사용될 수 있다. # 작성방법 (태블로에서 제공하는 '샘플 통합 문서'의 '슈퍼스토어' 사용)주문 날짜, 하위 범주, 매출 필드를 다중 선택한다표현 방식에서 텍스트 테이블을 클릭한다. ## 측정값이..

Tableau 2024.09.05

[sklearn] 데이터 인코딩

# 데이터 인코딩 데이터를 모델이 이해할 수 있는 형태로 변환하는 과정 주로 범주형 데이터를 수치형 데이터로 변환하는 과정을 말한다. # 레이블 인코딩(Label Encoding) 범주형 데이터를 숫자형으로 변환하는 가장 간단한 방법 중 하나 LabelEncoder 클래스를 사용하여 수행할 수 있다. from sklearn.preprocessing import LabelEncoder items=['TV','냉장고','전자레인지','컴퓨터','선풍기','선풍기','믹서','믹서'] # LabelEncoder를 객체로 생성한 후, fit()과 transfrom()으로 label 인코딩 수행 # 종속변수에 적용 # 수치 예측 할 때, LabelEncoder 사용 X # 범주 예측: 예시) 양성 / 음성 / 잘..

Machine Learning 2024.03.05

[ML] Feature Engineering

# Feature Engineering 머신러닝 모델의 성능을 향상시키기 위해 데이터셋에서 새로운 피처를 생성하거나 기존의 피처를 변형하는 과정 사용되는 알고리즘에 적합한 데이터셋으로 만들기 위해 원 데이터에서 피처를 선택, 수정, 생성하는 과정을 포함한다. 머신러닝 파이프라인에서 중요한 단계로, 피처의 품질이 모델의 성능에 큰 영향을 미칠 수 있다. # Feature Selection 데이터셋에서 가장 관련성이 높은 피처를 선택하고 관련성이 낮거나 중복된 피처를 제거한다. univariate feature selection, recursive feature elimination, feature importance ranking 등이 있다. # Feature Transformation 피처를 변환하여 모..

Machine Learning 2024.03.05

[sklearn] GridSearchCV

# GirdSearchCV Scikit-learn 라이브러리에서 제공하는 하이퍼파라미터 튜닝을 위한 기능 중 하나 하이퍼파라미터는 모델을 학습할 때 사전에 정의해야 하는 매개변수로, 모델의 학습 및 성능에 영향을 미친다. GridSearchCV를 사용하면 여러 하이퍼파라미터의 조합을 시도하여 최적의 조합을 찾을 수 있다. # GridSearchCV를 이용하여 붓꽃 데이터를 예측 분석하기 train_test_split()을 이용하여 학습 데이터와 테스트 데이터 분리하기 테스트할 하이퍼 파라미터 세트는 딕셔너리 형태로, 하이퍼 파라미터의 명칭은 문자열 Key 값으로, 하이퍼 파라미터의 값은 리스트 형으로 설정 from sklearn.datasets import load_iris from sklearn.tre..

Machine Learning 2024.03.05

[ML] 하이퍼 파라미터 튜닝

# 하이퍼 파라미터 튜닝 머신러닝 모델의 성능을 최적화하기 위해 모델에 사용되는 하이퍼 파라미터들의 최적값을 찾는 과정 하이퍼 파라미터: 모델의 학습 과정에 영향을 주는 매개변수로, 사용자가 직접 설정해야 하는 값 하이퍼 파라미터 튜닝을 통해 모델의 일반화 성능을 향상시키고, 과적합을 방지할 수 있다. # Grid Search 가능한 모든 하이퍼 파라미터 조합을 시도하여 최적의 조합을 찾는 방법 탐색할 하이퍼 파라미터의 범위를 먼저 정의하고, 그 범위에서 가능한 모든 조합을 조사한다. 각 조합에 대해 교차 검증을 수행하여 모델의 성능을 평가하고, 최적의 조합을 선택한다. 간단하고 직관적이지만, 탐색 공간이 커질수록 계산 비용이 많이 들 수 있다. # Random Search 가능한 하이퍼 파라미터 조합을..

Machine Learning 2024.03.05

[sklearn] Stratified K 폴드

# Stratified K 폴드 불균형한(imbalanced) 분포도를 가진 레이블 데이터 집합을 위한 K 폴드 방식 불균형한 분포도를 가진 레이블 데이터 집합: 특정 레이블 값이 특이하게 많거나 매우 적어서 값의 분포가 한쪽으로 치우치는 것 K 폴드가 레이블 데이터 집합이 원본 데이터 집합의 레이블 분포를 학습 및 테스트 세트에 제대로 분배하지 못하는 경우의 문제를 해결해 준다. 원본 데이터의 레이블 분포를 먼저 고려한 뒤 이 분포와 동일하게 학습과 검증 데이터 세트를 분배한다. # StratifiedKFold 클래스를 이용하여 붓꽃 데이터 세트를 교차 검증하고 예측 정확도 알아보기 붓꽃 데이터 세트를 DataFrame으로 생성하고 레이블 값의 분포도 확인하기 import pandas as pd iri..

Machine Learning 2024.03.05

[sklearn] K 폴드 교차 검증

# 교차 검증 머신러닝 모델의 성능을 평가하는 기법 중 하나 데이터를 여러 번 반복해서 나누어 모델을 학습하고 평가하는 방법 교차 검증은 일반화 성능을 더 정확하게 추정하고, 모델이 특정 데이터에 과적합(overfitting)되지 않도록 도와준다. 과적합: 모델이 학습 데이터에만 과도하게 최적화되어 실제 예측을 다른 데이터로 수행할 경우 예측 성능이 과도하게 떨어지는 것 # K 폴드 교차 검증 가장 보편적으로 사용되는 교차 검증 기법 K개의 데이터 폴드 세트를 만들어 K번만큼 각 폴드 세트에 학습과 검증 평가를 반복적으로 수행하는 방법 # KFold 클래스를 이용하여 붓꽃 데이터 세트를 교차 검증하고 예측 정확도 알아보기 from sklearn.tree import DecisionTreeClassifie..

Machine Learning 2024.03.05

[sklearn] Model Selection

# Model Selection 학습 데이터와 테스트 데이터 세트를 분리하거나 교차 검증 분할 및 평가, Estimator의 하이퍼 파라미터를 튜닝하기 위한 다양한 함수와 클래스를 제공한다. # train_test_split(): 학습/테스트 데이터 세트 분리하기 학습과 예측을 동일한 데이터 세트로 수행한다면 예측 결과가 100% 정확하다고 나온다. from sklearn.datasets import load_iris from sklearn.tree import DecisionTreeClassifier from sklearn.metrics import accuracy_score iris = load_iris() dt_clf = DecisionTreeClassifier() train_data = iris...

Machine Learning 2024.03.05

[sklearn] Estimator

# Estimator 지도학습의 모든 알고리즘을 구현한 클래스 fit() 및 predict() 메서드를 구현한 파이썬 객체 데이터에 모델을 구축하고 맞추는 데 사용된다. # fit() method 주어진 훈련 데이터로 모델을 학습하는 데 사용된다. 주요 매개변수: 입력 특성(X), 대상 레이블(y) 비지도 학습 작업의 경우, X만 필요하다. # predict() method 새 데이터에 대한 예측을 수행하는 데 사용된다. 새 데이터의 입력 특성을 가져와 예측된 레이블/값이 반환된

Machine Learning 2024.03.05

주댕이의 공부 기록

전체 글 134

티스토리툴바