본문 바로가기

Study72

[All in One(2조)] 프로젝트로 배우는 데이터사이언스_3주차 탐색한 데이터로 모델성능 개선 [3주차] 작성일자: 2024-03-25 팀 구성원: 도우진, 오소민,오현정,정원준,최준헌 3. 1. 1 연속 수치 데이터를 범주형 변수로 변경하기 오버피팅(Overfitting) : 머신러닝 모델이 학습 데이터에 과도하게 적합되어 새로운 데이터에 대한 예측 성능이 저하되는 현상 -> 수치의 범위가 넓으면 수치형 변수의 조건이 너무 세분화되어 tree가 깊어지므로 수치형 데이터를 범주화하여 성능을 높일 필요가 있음. Feature engineering : 머신러닝 모델의 성능을 향상시키기 위해 사용되는 데이터 전처리 과정 -> 오버피팅을 방지하고 모델의 성능을 향상시킴. 1. 수치형 변수를 범주형 변수로 만들기 df["Pregnancies_high"] = df["Pregna.. 2024. 3. 25.
[5조 C5DE] Python Study #3 3주차 퀴즈 4문제 답안 업로드 💙 팀원: 김세언 박준현 박지호 소정인 인시환 작성자 : 박준현 날짜 : 03/25 범위 : 4-1 함수 함수란 ? 우리가 지금까지 배운 함수를 생각해보자. f(x) = 2x + 9꼴을 생각할 수 있다. 이때 우리는 f(x)를 '함수'라고 칭한다. 함수는 일종의 자판기라고 생각할 수 있다. 어떤 값(입력값)을 입력함에 따라 출력값은 달라진다. 수학에서 보통 입력값은 x, 출력값은 y로 표현된다. 그렇다면 함수를 이용하면 어떤 점이 좋을까? 앞에서 본 함수를 다시 가져와보자. 우리가 만약 x라는 숫자에 대입했을 때 2x+9를 출력하고 싶을 때, 한 번만 입력하면 될 때에는 그저 2x+9라고 써도 무방할 것이다. 하지만 우리가 2x+9라는 식을 반복해서 사용하고 싶을 때 매번.. 2024. 3. 25.
[Trillion(1조)] 프로젝트로 배우는 데이터사이언스_3주차 3.1 탐색한 데이터로 모델 성능 개선 3.1.1 연속 수치 데이터를 범주형 변수로 변경하기 이전에 1주차 내용에서 피처 엔지니어링과 전처리를 전혀 하지 않은 상태에서 데이터 셋을 나누어, DecisionTree ML 알고리즘을 통해서 예측을 진행 했습니다. 이때 71.43%의 정확도가 나왔었습니다. 이 정확도를 개선하는 방법들을 다음과 같습니다: feature engineering model의 parameter tuning (모델 성능 개선) 2번에 대한 설명을 간단히 하자면, 지난번의 예측에선 DecisionTreeModel의 기본 옵션만을 사용했지만, tree의 깊이 제한 leaf node의 샘플 개수 조정 node가 나뉘어 질 때 최소한의 샘플 개수 지정 이런 방법으로 모델의 성능을 개선해 볼 수.. 2024. 3. 25.
[불사조] Python study (3) 팀원 : 김승혁 류건희 박지현 이예주 임은진 조준혁 3주차 내용은 이전글에 이어서 작성했습니다(링크참고) https://khu-code.tistory.com/116 [4조 불사조] Python Study (2) 팀원: 김승혁, 류건희, 박지현, 이예주, 임은진, 조준혁 2주차 학습내용은 이전 글에 이어서 작성했습니다. (링크참고) 2024.03.10 - [Study/CODE 3기 [Jump to python]] - [4조 불사조] Python Study [4조 불사조] Pyt khu-code.tistory.com 클래스의 상속 - 클래스의 상속이란? > 어떠한 클래스를 만들 때 다른 클래스의 기능을 물려받을 수 있게 만듦! 고로 예를 들어 위의 Fourcal 클래스를 상속하는 MoreFourcal 클래스.. 2024. 3. 24.