Python 46

[Pandas] 데이터 필터링: isin vs contains

# isinisin은 특정 값들의 목록(리스트, 시리즈 등)이 데이터프레임이나 시리즈의 값에 포함되어 있는지를 확인하는 데 사용된다.여러 값 중 하나라도 일치하면 True를 반환한다.주로 ==(동등 비교)를 여러 값에 대해 한꺼번에 수행할 때 사용한다.대소문자를 구분한다.import pandas as pd# 데이터 생성df = pd.DataFrame({'Name': ['Alice', 'Bob', 'Charlie'], 'Age': [25, 30, 35]})# 특정 이름이 포함된 행 필터링filter_names = ['Alice', 'Charlie']filtered_df = df[df['Name'].isin(filter_names)]print(filtered_df)# 결과:# Name Age# ..

Python 2024.11.18

[Pandas] 날짜/시간의 차이 (timedelta)

# timedeltatimedelta는 파이썬의 datetime 모듈에서 제공하는 클래스 중 하나로, 두 날짜 또는 시간 간의 차이(간격)를 표현하는 데 사용된다.날짜 및 시간 간의 연산(더하기, 빼기 등)을 수행하거나, 두 시점 간의 간격 정보를 쉽게 다룰 수 있다. # timedelta의 특징기간(간격) 표현timedelta는 일(day), 초(second), 마이크로초(microsecond) 단위의 간격을 표현한다.연산 지원날짜 또는 시간과 더하거나 빼는 연산이 가능하다.두 날짜 간의 차이를 계산하면 timedelta 객체가 반환됩된다.단위 변환내부적으로는 초 단위로 저장되지만, 필요한 경우 days, seconds, microseconds 등으로 값을 추출할 수 있다. # timedelta 생성하..

Python 2024.11.18

[Pandas] 날짜/시간 데이터 처리하기(to_datetime(), .dt, to_period)

# to_datetime()to_datetime()은 문자열이나 숫자 등 다양한 포맷의 데이터를 Pandas의 날짜/시간 형식(datetime64)으로 변환한다.날짜와 시간 데이터를 처리할 수 있다.데이터 형식을 자동적으로 추론하거나 명시적 형식을 지정할 수 있다.잘못된 형식의 데이터 처리 옵션을 제공한다.## 날짜/시간 데이터 처리하기import pandas as pddates = ["2023-01-01", "2023/02/01", "01-03-2023"]pd.to_datetime(dates)# 결과: DatetimeIndex(['2023-01-01', '2023-02-01', '2023-03-01'], dtype='datetime64[ns]', freq=None) ## 데이터 형식 지정하기pd.to_..

Python 2024.11.18

[Pandas] 데이터프레임의 행/열/데이터 개수 세기

# 행 개수 세기## len()len() 함수는 데이터프레임의 행 개수를 반환한다.코드df = pd.DataFrame({ "A": [1, 2, None, 4], "B": [None, 2, 3, 4], "C": [1, 1, 1, None]})len(df)출력4 ## shapeshape 속성의 첫 번째 값은 행의 개수를 나타낸다.코드df.shape[0]출력4  # 열 개수 세기## columnscolumns 속성은 데이터프레임의 열 이름을 반환하며, 이를 len()으로 감싸면 열 개수를 구할 수 있다.코드len(df.columns)출력3 ## shapeshape 속성의 두 번째 값은 열의 개수를 나타낸다.코드df.shape[1]출력3  # 전체 데이터 개수 세기## sizesize 속성은 데..

Python 2024.11.18

[Python] enumerate()

# enumeratre()반복문에서 인덱스와 원소를 함께 다룰 수 있도록 도와주는 함수반복 가능한 객체(예: 리스트, 튜플, 문자열 등)을 입력으로 받아, 해당 객체의 각 원소에 대한 인덱스와 원소를 튜플 형태로 반환한다.주로 for 루프와 함께 사용하여 코드의 가독성을 높이고, 추가 변수 없이도 인덱스를 활용할 수 있게 한다. # 기본 문법enumerate(iterable, start=0) iterable: 인덱스와 함께 열거할 반복 가능한 객체start: 시작 인덱스 번호. 기본값은 0이며, 다른 숫자로 설정하여 시작 인덱스를 변경할 수 있다.## 예제코드fruits = ['apple', 'banana', 'cherry']for index, fruit in enumerate(fruits): pr..

Python 2024.11.14

[Pandas] apply lambda 식으로 데이터 가공하기

# apply() 주로 DataFrame 또는 Series의 축(axis)을 따라 함수를 적용하는 데 사용된다. DataFrame 또는 Series의 각 요소, 행 또는 열에 함수를 적용하여 결과를 적용된 함수의 결과로 포함하는 새로운 DataFrame 또는 Series를 반환할 수 있다. # lambda 파이썬에서 사용되는 익명 함수 일반적인 함수를 정의하는 def 키워드 대신 lambda 키워드를 사용하여 작성된다. 주로 map(), filter(), reduce()와 같은 함수와 함께 또는 고차 함수에 대한 인수로 사용될 때 특히 유용하다. # apply lambda pandas는 apply 함수에 lambda 식을 결합하여 DataFrame이나 Series의 레코드별로 데이터를 가공하는 기능을 제..

Python 2024.02.19

[Matplotlib] 데이터 시각화

# matplotlib으로 그래프 그리기 선 그래프 import matplotlib.pyplot as plt # 데이터 생성 data1 = [10, 14, 19, 20, 25] # 그림과 축 생성 fig, ax = plt.subplots() # 데이터를 선 그래프로 플로팅 ax.plot(data1) # 그래프 출력 plt.show() import matplotlib.pyplot as plt # 날짜 데이터 dates = [ '2021-01-01', '2021-01-02', '2021-01-03', '2021-01-04', '2021-01-05', '2021-01-06', '2021-01-07', '2021-01-08', '2021-01-09', '2021-01-10' ] # 최저 온도 데이터 min_te..

Python 2024.02.03

[Pandas] 데이터 파일 읽고 쓰기

# 표 형식의 데이터 파일 읽기 DataFrame_data = pd.read_csv(file_name [, options]) 데이터 다운로드: https://www.kaggle.com/competitions/playground-series-s4e1/data import pandas as pd DATA_PATH = 'playground-series-s4e1/' train = pd.read_csv(DATA_PATH + 'train.csv') test = pd.read_csv(DATA_PATH + 'test.csv') submission = pd.read_csv(DATA_PATH + 'sample_submission.csv') train.head() 데이터 파일의 구분자가 콤마가 아닌 경우, 'sep=구분자'..

Python 2024.02.03

[Pandas] loc vs iloc

# loc, iloc 데이터프레임에서 데이터를 색인 및 선택하는 데 사용된다. # 차이점 Indexing Type: 'loc': 라벨 기반의 인덱싱, 행과 열 라벨을 사용하여 데이터에 액세스 'iloc': 정수 기반의 인덱싱, 정수 위치를 사용하여 데이터에 액세스 Usage: 'loc': 라벨을 사용하여 행과 열을 선택, 행 및 열 라벨을 인수로 전달 'iloc': 정수 위치를 사용하여 행과 열을 선택, 정수 인덱스를 인수로 전달 Input Format: 'loc': 라벨 (리스트) 'iloc': 정수 인덱스 (리스트) Inclusive vs Exclusive: 'loc': 지정된 라벨 범위의 시작과 끝 모두가 포함됨 'iloc': 지정된 인덱스 범위의 끝이 제외됨 # sample DataFrame da..

Python 2024.02.02

[Pandas] DataFrame 데이터 선택하기

import pandas as pd import numpy as np # DataFrame 데이터 생성 KTX_data = {'경부선 KTX': [39060, 39896, 42005, 43621, 41702, 41266, 32427], '호남선 KTX': [7313, 6967, 6873, 6626, 8675, 10622, 9228], '경전선 KTX': [3627, 4168, 4088, 4424, 4606, 4984, 5570], '전라선 KTX': [309, 1771, 1954, 2244, 3146, 3945, 5766], '동해선 KTX': [np.nan,np.nan, np.nan, np.nan, 2395, 3786, 6667]} index_list = ['2011', '2012', '2013', '..

Python 2024.02.02
728x90