분류 전체보기 134

[ML] 분류 성능 평가 지표

# 분류 성능 평가 지표 모델이 예측한 결과와 실제 결과를 비교하여 다른 측면에서 모델의 성능을 측정한다. 모델의 성능을 평가하고 각 클래스에 대한 예측의 품질을 이해하는 데 도움이 된다. 주요 분류 성능 평가 지표에는 정확도(Accuracy), 정밀도(Precision), 재현율(Recall), F1 점수(F1 Score), ROC 곡선(Receiver Operating Characteristic curve), AUC(Area Under the Curve) 등이 있다. # 정확도(Accuracy) 전체 예측 중 올바르게 분류된 비율 정확도 = (올바르게 분류된 샘플 수) / (전체 샘플 수) 예) 100개의 샘플 중 80개를 올바르게 분류했다면 정확도는 80% 클래스 불균형 문제에서 적합한 지표가 아닐..

Machine Learning 2024.02.20

[sklearn] 붓꽃 품종 예측하기

# 붓꽃 품종 예측하기: 붓꽃 데이터 세트로 붓꽃의 품종 분류(Classification)하기 붓꽃 데이터 세트는 꽃잎의 길이와 너비, 꽃받침의 길이와 너비 피처(Feature)를 기반으로 꽃의 품종을 예측하기 위한 것이다. 분류(Classification): 대표적인 지도학습(Supervised Learning) 방법 중 하나 지도학습: 학습을 위한 다양한 피처와 분류 결정값인 레이블(Label) 데이터로 모델을 학습한 뒤, 별도의 테스트 데이터 세트에서 미지의 레이블을 예측한다. 즉, 명확한 정답이 주어진 데이터를 먼저 학습한 뒤 미지의 정답을 예측한다. 이때 학습을 위해 주어진 데이터 세트를 학습 데이터 세트, 머신러닝 모델의 예측 성능을 평가하기 위해 별도로 주어진 데이터 세트를 테스트 데이터 세..

Machine Learning 2024.02.19

[sklearn] 사이킷런(scikit-learn)

# 사이킷런(scikit-learn) 파이썬 머신러닝 라이브러리 중 가장 많이 사용되는 라이브러리 파이썬 기반의 다른 머신러닝 패키지도 사이킷런 스타일의 API를 지향할 정도로 쉽고 가장 파이썬스러운 API를 제공한다. 머신러닝을 위한 매우 다양한 알고리즘과 개발을 위한 편리한 프레임워크와 API를 제공한다. 오랜 기간 실전 환경에서 검증됐으며, 매우 많은 환경에서 사용되는 성숙한 라이브러리이다. CPU 연산만 가능하며, GPU 연산은 불가능하다.

Machine Learning 2024.02.19

[Pandas] apply lambda 식으로 데이터 가공하기

# apply() 주로 DataFrame 또는 Series의 축(axis)을 따라 함수를 적용하는 데 사용된다. DataFrame 또는 Series의 각 요소, 행 또는 열에 함수를 적용하여 결과를 적용된 함수의 결과로 포함하는 새로운 DataFrame 또는 Series를 반환할 수 있다. # lambda 파이썬에서 사용되는 익명 함수 일반적인 함수를 정의하는 def 키워드 대신 lambda 키워드를 사용하여 작성된다. 주로 map(), filter(), reduce()와 같은 함수와 함께 또는 고차 함수에 대한 인수로 사용될 때 특히 유용하다. # apply lambda pandas는 apply 함수에 lambda 식을 결합하여 DataFrame이나 Series의 레코드별로 데이터를 가공하는 기능을 제..

Python 2024.02.19

[ML] PyCaret 설치하기

# PyCaret Python에서 사용할 수 있는 오픈 소스 저코드 기계 학습 라이브러리 기계 학습 프로세스의 전반적인 단계를 간소화하는 데 사용된다. 데이터 전처리, 모델 선택, 하이퍼파라미터 튜닝, 모델 평가 및 배포와 같은 다양한 작업을 복잡한 코딩 없이 수행할 수 있는 고수준 인터페이스를 제공한다. # PyCaret 설치하기 PyCaret은 일반적으로 conda 환경에서 설치할 수 있다. 명령 프롬프트를 실행하여 다음과 같이 명령을 실행한다. conda create --name yourenvname python=3.10 conda activate yourenvname pip install pycaret

Machine Learning 2024.02.14

내 집을 찾아서: 서울 집값 비교하기

# 프로젝트 개요 멀티캠퍼스 멀티잇 데이터 분석 & 엔지니어 34회차 미니 프로젝트 주제: 내 집을 찾아서-서울 집값 비교하기 진행 일시: 2024.02.02 ~ 2024.02.08 # 프로젝트의 목적 본 프로젝트는 서울의 부동산 시장에서 자신이 원하는 집을 찾는 것을 지원하는 것을 목표로 한다. 사용자가 원하는 조건을 입력하면 자치구, 법정동, 또는 건물에 따른 부동산 시세를 그래프 및 도표 형태로 제공한다. 이를 통해 사용자는 쉽게 전·월세 실거래 정보를 확인하고, 위치별 시세를 비교하여 집을 구하는 시간을 단축할 수 있다. # 프로젝트에서 사용한 주요 개발환경 Programming Languages : Python(ver. 3.12.1) Web Framework : Streamlit (ver. 1...

Project 2024.02.13

[Matplotlib] 데이터 시각화

# matplotlib으로 그래프 그리기 선 그래프 import matplotlib.pyplot as plt # 데이터 생성 data1 = [10, 14, 19, 20, 25] # 그림과 축 생성 fig, ax = plt.subplots() # 데이터를 선 그래프로 플로팅 ax.plot(data1) # 그래프 출력 plt.show() import matplotlib.pyplot as plt # 날짜 데이터 dates = [ '2021-01-01', '2021-01-02', '2021-01-03', '2021-01-04', '2021-01-05', '2021-01-06', '2021-01-07', '2021-01-08', '2021-01-09', '2021-01-10' ] # 최저 온도 데이터 min_te..

Python 2024.02.03

[Pandas] 데이터 파일 읽고 쓰기

# 표 형식의 데이터 파일 읽기 DataFrame_data = pd.read_csv(file_name [, options]) 데이터 다운로드: https://www.kaggle.com/competitions/playground-series-s4e1/data import pandas as pd DATA_PATH = 'playground-series-s4e1/' train = pd.read_csv(DATA_PATH + 'train.csv') test = pd.read_csv(DATA_PATH + 'test.csv') submission = pd.read_csv(DATA_PATH + 'sample_submission.csv') train.head() 데이터 파일의 구분자가 콤마가 아닌 경우, 'sep=구분자'..

Python 2024.02.03
728x90