본문 바로가기
Study/CODE 3기 [파이썬으로 배우는 데이터 사이언스]

[2조:ACE] 1-2주차

by 문하진 2024. 5. 16.
df["a"].sort_values()

2조-강수환, 고정윤, 문하진, 박무준, 최혜윤

작성자: 문하진

1.  enumerate

enumerate를 사용하여 인덱스 번호와 원소를 같이 가져올 수 있다.

editor = ['vi', 'emacs','nano', 'jupyter']
for i,val in enumerate(editor):
    print(i, val)

0 vi
1 emacs
3 nano
4 jupyter

2. join

' '.join(리스트)를 사용해서 리스트를 공백 문자열로 연결할 수 있다. ' ' 사이에 특정 문자를 입력할 시 입력한 문자로 연결한 값이 출력된다. 

a = ['In', 'the', 'next', 'year']
' '.join(a)

In the next year

3. startswith

문자열.startswith('x')를 통해 문자열이 x로 시작하는지 검사할 수 있다. 

adress = '경기도 성남시 분당구 불정로 6 NAVER 그린팩토리 16층'
adress.startswith('경기')

True

 

4. pandas

수식으로 계산 가능하며 시각화 가능한 데이터 분석 도구로 대용량의 데이터를 분석할 수 있다. 

- import pandas as pd : pd라는 별칭으로 pandas 불러오기

-데이터 프레임 형식

df=pd.DataFrame(
{"a" : [4, 5, 6],
 "b" : [7, 8, 9],
 "c" : [10, 11, 12]},
index=[1, 2, 3])
df
  a b c
1 4 7 10
2 5 8 11
3 6 9 12

 


작성자 최혜윤

1. True & False

True는 문자 1과 다름. 1을 따옴표로 감싸면 문자열이 됨.

True == "1"
False

False = "0"
False

* 문자열을 만들 때, 큰따옴표를 쓰든, 작은 따옴표를 쓰든 상관 없다. 

문자열 1과 True는 다르다.

True != "1"
True

False != "0"
True

2. lists

비어있는 리스트를 만들어 lang이라는 변수에 담음.

lang = []
lang
[]

 

python, java, c를 원소에 추가할 때는 append를 사용한다. 

lang.append("python")
lang.append("java")
lang.append("c")
lang
['python', 'java', 'c']

 

3. pandas - Series

df["a"]

-> a컬럼에 잇는 4, 5, 6의 값이 출력됨. 이것을 Series 데이터라고 부른다.

결과:

1     4
2     5
3     6
Name: a, dtype: int64

여기서 대괄호를 한 번 더 쓴다면,

df[["a"]]

결과:

  a
1 4
2 5
3 6

DataFrame은 2차원의 구조, Seriessms 1차원의 구조임.

작성자 : 박무준

1.  split

address = '경기도 성남시 분당구 불정로 6 NAVER 그린팩토리 16층'
address.split()

split을 이런식으로 . 뒤에 써주게 되면 list 형식으로 뛰어쓰기 마다 갈라주게 된다.

여기서 address in '경기'는 True값이 나오게 되고 address.splite() in '경기'하면 False값이 나오게 된다.

2.  pandas - drop

drop은 행과 열을 없앨 수 있다! 행과 열이 헷갈릴 수 있으니, 주의하자!

df=df.drop(["c"], axis=1)
df
  a b c
1      
2      
3      

였던 것이

  a b
1    
2    
3    

drop을 쓰게 되면 이렇게 된다.

axis0은 로우(세로) 방향 축, axis1은 칼럼 방향(가로) 축을 뜻하게 된다.

drop을 활용하면 Dataframe의 수정과 편집을 편하게 할 수 있다!

 

작성자: 고정윤

Pandas란?

수식으로 계산할 수 있고 시각화도 할 수 있는 데이터 분석도구 (대용량 데이터 분석 가능)

 

Resharping

df = pd.DataFrame(
{"a" : [4, 5, 6, 4],
"b" : [7, 8, 9, 9],
"c" : [10, 11, 12, 12]},
index = [1, 2, 3, 4])
df

a컬럼 기준 정렬

df["a"].sort_values()
  a b c
1 4 7 10
4 4 9 12
2 5 8 11
3 6 9 12

역순정렬

df.sort_values("a", ascending=False)
ascending True일때 오름차순 False일때 내림차순

 

Groupby, pivot_table

pivot = 행에 있는 데이터 컬럼으로 보냄, 데이터 요약(형태만 바꿈)
pivot_table(값 연산 가능)

df.groupby(["a"])["b"].describe()
describe() 'b'의 값들에 대한 평균, 표준편차, 최솟값, 25%, 50%, 75% 백분위수, 최댓값

count mean std min 25% 50% 75% max
               
2.0 8.0 1.414214 7.0 7.5 8.0 8.5 9.0
1.0 8.0 NaN 8.0 8.0 8.0 8.0 8.0
1.0 9.0 NaN 9.0 9.0 9.0 9.0 9.0