본문 바로가기

분류 전체보기

(73)

11. 시각화 경고창제거, 한글폰트 사용import warnings# 경고창 제거warnings.filterwarnings('ignore')# 한글 글꼴 설정rc('font', family='Malgun Gothic') Matplotlibimport matplotlib.pyplot as pltfrom matplotlib import rcimport warnings# 경고창 제거warnings.filterwarnings('ignore')# 한글 글꼴 설정rc('font', family='Malgun Gothic')# 데이터 준비x = [1, 2, 3, 4, 5]y = [10, 20, 30, 40, 50]# 그래프 그리기plt.plot(x, y, label="한글 데이터", color='blue', marker='o')p..

10. 탐색적 데이터 분석 기초통계량 분석# Pandas를 사용한 평균 계산import pandas as pddata = {'Score': [80, 90, 100, 70, 85]} # 예제 데이터df = pd.DataFrame(data)# 평균 계산mean_value = df['Score'].mean()print("평균(Mean):", mean_value)# 중앙값 계산median_value = df['Score'].median()print("중앙값(Median):", median_value)# 최빈값 계산mode_value = df['Score'].mode()print("최빈값(Mode):", mode_value)# 최댓값과 최솟값 계산max_value = df['Score'].max()min_value = df['Score'..

9. Feature Engieneering (특성공학, 변수파생) ✔ 기존 수치 데이터를 변형하여 새로운 의미를 가진 변수를 생성연령대 생성 → 나이를 10대, 20대, 30대 등 범주형 데이터로 변환누적합 → 판매량을 날짜별로 누적하여 누적 매출 생성평균 대비 차이 → 개별 값이 평균보다 얼마나 높은지 계산로그 변환 → 데이터의 분포가 치우친 경우 로그 스케일로 변환하여 정규화import pandas as pdimport numpy as np# 샘플 데이터 생성df = pd.DataFrame({ '이름': ['철수', '영희', '민수', '지수'], '나이': [23, 35, 45, 52], '월급': [250, 400, 600, 700]})# 연령대 변수 생성df['연령대'] = pd.cut(df['나이'], bins=[0, 30, 40, 50, ..

8. 데이터 병합과 추가 데이터 병합데이터 준비import pandas as pd# 첫 번째 데이터프레임 생성data1 = { '제품ID': [1, 2, 3], '제품명': ['노트북', '모니터', '키보드']}df1 = pd.DataFrame(data1)# 두 번째 데이터프레임 생성data2 = { '제품ID': [1, 2, 4], '가격': [1000, 200, 50]}df2 = pd.DataFrame(data2)# 데이터프레임 출력print("첫 번째 데이터프레임:")print(df1)print("\n두 번째 데이터프레임:")print(df2) 내부 조인(Inner Join)# 내부 조인inner_join = pd.merge(df1, df2, on='제품ID', how='inner')# 데이터프레임 ..

7. 데이터전처리 수치형 데이터 전처리나이 데이터를 구간화하기import pandas as pd# 데이터 생성data = {'Age': [15, 22, 35, 50, 72]}df = pd.DataFrame(data)# 나이를 구간화 (10대, 20대, 30대, ...)bins = [0, 20, 40, 60, 80] # 구간 경계 설정labels = ['10대', '20대', '30대', '40대 이상'] # 각 구간의 이름df['Age_Group'] = pd.cut(df['Age'], bins=bins, labels=labels)# 결과 출력print(df) 구간화를 자동으로 수행하기# 나이를 자동으로 3개의 구간으로 나누기df['Age_Quantile'] = pd.qcut(df['Age'], q=3, labels=[..

6. 데이터 전처리 (결측치와 이상치) import pandas as pd # 예제 데이터프레임 생성 data = {'Name': ['Alice', 'Bob', 'Charlie'], # 이름 'Age': [25, None, 30], # 나이 (Bob의 나이가 비어 있음) 'Score': [90, 85, None]} # 점수 (Charlie's 점수가 비어 있음) df = pd.DataFrame(data) # 결측치 여부 확인 print("결측치 여부 확인:")print(df.isnull()) # Pandas를 이용한 결측치 확인 및 처리 튜토리얼import pandas as pd# 예제 데이터프레임 생성data = { 'Name': ['Alice', 'Bob', 'Charlie'], # 이름 'Age..

5. 데이터선택하기 # 📌 Pandas 데이터 선택하기 (행, 열, 조건 등) 튜토리얼import pandas as pd# 샘플 데이터 생성data = { "이름": ["홍길동", "김철수", "이영희", "박지수"], "나이": [25, 30, 28, 22], "도시": ["서울", "부산", "대구", "서울"], "연봉": [5000, 6000, 5500, 4800],}df = pd.DataFrame(data)print(df)# 1️⃣ 특정 열(컬럼) 선택## ✅ 단일 열 선택print(df["이름"]) # 시리즈 형태로 반환print(df.이름) # 점(.) 표기법으로 접근## ✅ 여러 열 선택print(df[["이름", "연봉"]]) # 데이터프레임 형태로 반환# 2️⃣ 특정 행 선택#..

4. 데이터불러오기 및 저장하기 # 📌 Pandas read_csv() 풀옵션 예제 및 설명import pandas as pd# 1️⃣ 기본적으로 CSV 파일 불러오기df = pd.read_csv("datasets/winequality-white.csv")print(df.head())# 2️⃣ 다양한 옵션 사용 예제## ✅ 구분자 지정 (sep)df = pd.read_csv("datasets/winequality-white.csv", sep=";") # 세미콜론(;)으로 구분된 데이터df = pd.read_csv("datasets/winequality-white.csv", sep="\t") # 탭(\t)으로 구분된 데이터## ✅ 인코딩 방식 지정 (encoding)df = pd.read_csv("datasets/winequalit..

목록 더보기

티스토리툴바