본문 바로가기

Study/CODE 2기 [프로젝트로 배우는 데이터사이언스]11

[Trillion(1조)] 프로젝트로 배우는 데이터사이언스_3주차 3.1 탐색한 데이터로 모델 성능 개선 3.1.1 연속 수치 데이터를 범주형 변수로 변경하기 이전에 1주차 내용에서 피처 엔지니어링과 전처리를 전혀 하지 않은 상태에서 데이터 셋을 나누어, DecisionTree ML 알고리즘을 통해서 예측을 진행 했습니다. 이때 71.43%의 정확도가 나왔었습니다. 이 정확도를 개선하는 방법들을 다음과 같습니다: feature engineering model의 parameter tuning (모델 성능 개선) 2번에 대한 설명을 간단히 하자면, 지난번의 예측에선 DecisionTreeModel의 기본 옵션만을 사용했지만, tree의 깊이 제한 leaf node의 샘플 개수 조정 node가 나뉘어 질 때 최소한의 샘플 개수 지정 이런 방법으로 모델의 성능을 개선해 볼 수.. 2024. 3. 25.
[Trillion(1조)] 프로젝트로 배우는 데이터사이언스_2주차 2.1.1 당뇨병 데이터셋 미리보기 우리가 살펴 볼 데이터셋 출처는 다음과 같다. Pima Indians Diabetes Database | Kaggle Google Colab 종료 중 colab.research.google.com 데이터 구성 Pregnancies : 임신 횟수 Glucose : 2시간 동안의 경구 포도당 내성 검사에서 혈장 포도당 농도 BloodPressure : 이완기 혈압 (mm Hg) SkinThickness : 삼두근 피부 주름 두께 (mm), 체지방을 추정하는데 사용되는 값 Insulin : 2시간 혈청 인슐린 (mu U / ml) BMI : 체질량 지수 (체중kg / 키(m)^2) DiabetesPedigreeFunction : 당뇨병 혈통 기능 Age : 나이 Outcom.. 2024. 3. 18.
[All in One(2조)] 프로젝트로 배우는 데이터사이언스_2주차 2. 1. 1 당뇨병 데이터셋 미리보기 0. 데이터 구성 - Pregnancies : 임신 횟수 - Glucose : 2시간 동안의 경구 포도당 내성 검사에서 혈장 포도당 농도 - BloodPressure : 이완기 혈압 (mm Hg) - SkinThickness : 삼두근 피부 주름 두께 (mm), 체지방을 추정하는 데 사용되는 값 - Insulin : 2시간 혈청 인슐린 (mu U / ml) - BMI : 체질량 지수 (체중 kg / 키(m)^2) - DiabetesPedigreeFunction : 당뇨병 혈통 기능 - Age : 나이 - Outcome : 768개 중에 268개의 결과 클래스 변수(0 또는 1)는 1이고 나머지는 0이다. 1. 라이브러리 로드하기 import pandas as pd .. 2024. 3. 18.
[삼위일체(3조)] 프로젝트로 배우는 데이터 사이언스_2주차 2.1.1 당뇨병 데이터셋 미리보기 데이터 구성 Pregnancies : 임신 횟수 Glucose : 2시간 동안의 경구 포도당 내성 검사에서 혈장 포도당 농도 BloodPressure : 이완기 혈압 (mm Hg) SkinThickness : 삼두근 피부 주름 두께 (mm), 체지방을 추정하는데 사용되는 값 Insulin : 2시간 혈청 인슐린 (mu U / ml) BMI : 체질량 지수 (체중kg / 키(m)^2) DiabetesPedigreeFunction : 당뇨병 혈통 기능 Age : 나이 Outcome : 768개 중에 268개의 결과 클래스 변수(0 또는 1)는 1이고 나머지는 0 EDA (탐색적 데이터 분석) 시작하기 import pandas as pd import numpy as np i.. 2024. 3. 18.