본문 바로가기

Study/CODE 2기 [프로젝트로 배우는 데이터사이언스]11

[All in One(2조)] 프로젝트로 배우는 데이터사이언스_4주차 모델과 파라미터 찾기 [4주차] 작성일자: 2024-04-01 팀 구성원: 도우진, 오소민,오현정,정원준,최준헌 4.1.1 사이킷런을 통해 학습과 예측에 사용할 데이터셋 나누기 1. 라이브러리 로드하기 import pandas as pd import numpy as np import seaborn as sns import matplotlib.pyplot as plt %matplotlib inline 데이터 분석을 위한 pandas, 수치 계산을 위한 numpy, 시각화를 위한 seaborn, matplotlib.pyplot을 로드한다. 2. 데이터셋 로드하기 df = pd.read_csv("data/diabetes_feature.csv") df.shape (768, 16) 전처리한 데이터셋을 로드하고, .. 2024. 4. 1.
[Trillion(1조)] 프로젝트로 배우는 데이터사이언스_4주차 4.1.1 사이킷런을 통해 학습과 예측에 사용할 데이터셋 나누기 - 사이킷런에서 지원되는 train_test_split를 통해 학습과 예측에 사용될 데이터 셋을 나눌 수 있다. from sklearn.model_selection import train_test_split train_test_split(arrays, test_size, train_size, random_state, shuffle, stratify) 파라미터 설명 arrays: 분할시킬 데이터를 입력(리스트,배열,데이터 프레임) test_size: 테스트 데이터셋의 비율(default = 0.25) train_size: 학습 데이터셋의 비율( default = test_size의 나머지) random_state: 데이터 분할시 셔플이 이루어.. 2024. 4. 1.
[삼위일체(3조)] 프로젝트로 배우는 데이터 사이언스_3주차 3.1.2 범주형 변수를 수치형 변수로 변환하기 - 원핫인코딩 학습 목표- 범주형 변수를 수치형 변수로 변환하는 기법을 이해합니다.핵심 키워드- 원핫인코딩 (one-hot-encoding)필요한 라이브러리와 데이터셋 로드는 앞에서 설명했으므로 생략하겠습니다. 나이를 기준으로 '25세 미만', '25세부터 60세', '60세 초과'의 3개의 카테고리를 만들어보겠습니다.pandas 모듈에서는 조건을 2개 이상 다룰 때 and를 쓰면 동작을 하지 않으므로 and 대신 &를 써줍니다.pandas에서 여러 개의 column을 볼 때는 꼭 리스트 형태로 묶어줘야 합니다.세 카테고리를 포함한 데이터프레임을 head()를 사용하여 미리보기합니다.조건에 부합하면 True, 부합하지 않으면 False로 나타납니다.결과:학.. 2024. 3. 25.
[All in One(2조)] 프로젝트로 배우는 데이터사이언스_3주차 탐색한 데이터로 모델성능 개선 [3주차] 작성일자: 2024-03-25 팀 구성원: 도우진, 오소민,오현정,정원준,최준헌 3. 1. 1 연속 수치 데이터를 범주형 변수로 변경하기 오버피팅(Overfitting) : 머신러닝 모델이 학습 데이터에 과도하게 적합되어 새로운 데이터에 대한 예측 성능이 저하되는 현상 -> 수치의 범위가 넓으면 수치형 변수의 조건이 너무 세분화되어 tree가 깊어지므로 수치형 데이터를 범주화하여 성능을 높일 필요가 있음. Feature engineering : 머신러닝 모델의 성능을 향상시키기 위해 사용되는 데이터 전처리 과정 -> 오버피팅을 방지하고 모델의 성능을 향상시킴. 1. 수치형 변수를 범주형 변수로 만들기 df["Pregnancies_high"] = df["Pregna.. 2024. 3. 25.