본문 바로가기

Study73

[삼위일체(3조)] 프로젝트로 배우는 데이터 사이언스_3주차 3.1.2 범주형 변수를 수치형 변수로 변환하기 - 원핫인코딩 학습 목표- 범주형 변수를 수치형 변수로 변환하는 기법을 이해합니다.핵심 키워드- 원핫인코딩 (one-hot-encoding)필요한 라이브러리와 데이터셋 로드는 앞에서 설명했으므로 생략하겠습니다. 나이를 기준으로 '25세 미만', '25세부터 60세', '60세 초과'의 3개의 카테고리를 만들어보겠습니다.pandas 모듈에서는 조건을 2개 이상 다룰 때 and를 쓰면 동작을 하지 않으므로 and 대신 &를 써줍니다.pandas에서 여러 개의 column을 볼 때는 꼭 리스트 형태로 묶어줘야 합니다.세 카테고리를 포함한 데이터프레임을 head()를 사용하여 미리보기합니다.조건에 부합하면 True, 부합하지 않으면 False로 나타납니다.결과:학.. 2024. 3. 25.

[All in One(2조)] 프로젝트로 배우는 데이터사이언스_3주차 탐색한 데이터로 모델성능 개선 [3주차] 작성일자: 2024-03-25 팀 구성원: 도우진, 오소민,오현정,정원준,최준헌 3. 1. 1 연속 수치 데이터를 범주형 변수로 변경하기 오버피팅(Overfitting) : 머신러닝 모델이 학습 데이터에 과도하게 적합되어 새로운 데이터에 대한 예측 성능이 저하되는 현상 -> 수치의 범위가 넓으면 수치형 변수의 조건이 너무 세분화되어 tree가 깊어지므로 수치형 데이터를 범주화하여 성능을 높일 필요가 있음. Feature engineering : 머신러닝 모델의 성능을 향상시키기 위해 사용되는 데이터 전처리 과정 -> 오버피팅을 방지하고 모델의 성능을 향상시킴. 1. 수치형 변수를 범주형 변수로 만들기 df["Pregnancies_high"] = df["Pregna.. 2024. 3. 25.

[5조 C5DE] Python Study #3 3주차 퀴즈 4문제 답안 업로드 💙 팀원: 김세언 박준현 박지호 소정인 인시환 작성자 : 박준현 날짜 : 03/25 범위 : 4-1 함수 함수란 ? 우리가 지금까지 배운 함수를 생각해보자. f(x) = 2x + 9꼴을 생각할 수 있다. 이때 우리는 f(x)를 '함수'라고 칭한다. 함수는 일종의 자판기라고 생각할 수 있다. 어떤 값(입력값)을 입력함에 따라 출력값은 달라진다. 수학에서 보통 입력값은 x, 출력값은 y로 표현된다. 그렇다면 함수를 이용하면 어떤 점이 좋을까? 앞에서 본 함수를 다시 가져와보자. 우리가 만약 x라는 숫자에 대입했을 때 2x+9를 출력하고 싶을 때, 한 번만 입력하면 될 때에는 그저 2x+9라고 써도 무방할 것이다. 하지만 우리가 2x+9라는 식을 반복해서 사용하고 싶을 때 매번.. 2024. 3. 25.

[Trillion(1조)] 프로젝트로 배우는 데이터사이언스_3주차 3.1 탐색한 데이터로 모델 성능 개선 3.1.1 연속 수치 데이터를 범주형 변수로 변경하기 이전에 1주차 내용에서 피처 엔지니어링과 전처리를 전혀 하지 않은 상태에서 데이터 셋을 나누어, DecisionTree ML 알고리즘을 통해서 예측을 진행 했습니다. 이때 71.43%의 정확도가 나왔었습니다. 이 정확도를 개선하는 방법들을 다음과 같습니다: feature engineering model의 parameter tuning (모델 성능 개선) 2번에 대한 설명을 간단히 하자면, 지난번의 예측에선 DecisionTreeModel의 기본 옵션만을 사용했지만, tree의 깊이 제한 leaf node의 샘플 개수 조정 node가 나뉘어 질 때 최소한의 샘플 개수 지정 이런 방법으로 모델의 성능을 개선해 볼 수.. 2024. 3. 25.

이전 1 ··· 3 4 5 6 7 8 9 ··· 19 다음

티스토리툴바