df["a"].sort_values()
2조-강수환, 고정윤, 문하진, 박무준, 최혜윤
작성자: 문하진
1. enumerate
enumerate를 사용하여 인덱스 번호와 원소를 같이 가져올 수 있다.
editor = ['vi', 'emacs','nano', 'jupyter']
for i,val in enumerate(editor):
print(i, val)
0 vi
1 emacs
3 nano
4 jupyter
2. join
' '.join(리스트)를 사용해서 리스트를 공백 문자열로 연결할 수 있다. ' ' 사이에 특정 문자를 입력할 시 입력한 문자로 연결한 값이 출력된다.
a = ['In', 'the', 'next', 'year']
' '.join(a)
In the next year
3. startswith
문자열.startswith('x')를 통해 문자열이 x로 시작하는지 검사할 수 있다.
adress = '경기도 성남시 분당구 불정로 6 NAVER 그린팩토리 16층'
adress.startswith('경기')
True
4. pandas
수식으로 계산 가능하며 시각화 가능한 데이터 분석 도구로 대용량의 데이터를 분석할 수 있다.
- import pandas as pd : pd라는 별칭으로 pandas 불러오기
-데이터 프레임 형식
df=pd.DataFrame(
{"a" : [4, 5, 6],
"b" : [7, 8, 9],
"c" : [10, 11, 12]},
index=[1, 2, 3])
df
a | b | c | |
1 | 4 | 7 | 10 |
2 | 5 | 8 | 11 |
3 | 6 | 9 | 12 |
작성자 최혜윤
1. True & False
True는 문자 1과 다름. 1을 따옴표로 감싸면 문자열이 됨.
True == "1"
False
False = "0"
False
* 문자열을 만들 때, 큰따옴표를 쓰든, 작은 따옴표를 쓰든 상관 없다.
문자열 1과 True는 다르다.
True != "1"
True
False != "0"
True
2. lists
비어있는 리스트를 만들어 lang이라는 변수에 담음.
lang = []
lang
[]
python, java, c를 원소에 추가할 때는 append를 사용한다.
lang.append("python")
lang.append("java")
lang.append("c")
lang
['python', 'java', 'c']
3. pandas - Series
df["a"]
-> a컬럼에 잇는 4, 5, 6의 값이 출력됨. 이것을 Series 데이터라고 부른다.
결과:
1 4
2 5
3 6
Name: a, dtype: int64
여기서 대괄호를 한 번 더 쓴다면,
df[["a"]]
결과:
a | |
1 | 4 |
2 | 5 |
3 | 6 |
DataFrame은 2차원의 구조, Seriessms 1차원의 구조임.
작성자 : 박무준
1. split
address = '경기도 성남시 분당구 불정로 6 NAVER 그린팩토리 16층'
address.split()
split을 이런식으로 . 뒤에 써주게 되면 list 형식으로 뛰어쓰기 마다 갈라주게 된다.
여기서 address in '경기'는 True값이 나오게 되고 address.splite() in '경기'하면 False값이 나오게 된다.
2. pandas - drop
drop은 행과 열을 없앨 수 있다! 행과 열이 헷갈릴 수 있으니, 주의하자!
df=df.drop(["c"], axis=1)
df
a | b | c | |
1 | |||
2 | |||
3 |
였던 것이
a | b | |
1 | ||
2 | ||
3 |
drop을 쓰게 되면 이렇게 된다.
axis0은 로우(세로) 방향 축, axis1은 칼럼 방향(가로) 축을 뜻하게 된다.
drop을 활용하면 Dataframe의 수정과 편집을 편하게 할 수 있다!
작성자: 고정윤
Pandas란?
수식으로 계산할 수 있고 시각화도 할 수 있는 데이터 분석도구 (대용량 데이터 분석 가능)
Resharping
df = pd.DataFrame(
{"a" : [4, 5, 6, 4],
"b" : [7, 8, 9, 9],
"c" : [10, 11, 12, 12]},
index = [1, 2, 3, 4])
df
a컬럼 기준 정렬
df["a"].sort_values()
a | b | c | |
1 | 4 | 7 | 10 |
4 | 4 | 9 | 12 |
2 | 5 | 8 | 11 |
3 | 6 | 9 | 12 |
역순정렬
df.sort_values("a", ascending=False)
Groupby, pivot_table
pivot = 행에 있는 데이터 컬럼으로 보냄, 데이터 요약(형태만 바꿈)
pivot_table(값 연산 가능)
df.groupby(["a"])["b"].describe()
count | mean | std | min | 25% | 50% | 75% | max |
2.0 | 8.0 | 1.414214 | 7.0 | 7.5 | 8.0 | 8.5 | 9.0 |
1.0 | 8.0 | NaN | 8.0 | 8.0 | 8.0 | 8.0 | 8.0 |
1.0 | 9.0 | NaN | 9.0 | 9.0 | 9.0 | 9.0 | 9.0 |
'Study > CODE 3기 [파이썬으로 배우는 데이터 사이언스]' 카테고리의 다른 글
[4조:불사조] 건강검진데이터로 가설검정하기 (0) | 2024.05.28 |
---|---|
[김이김이나] 1 - 2 주차 스터디 (1) | 2024.05.17 |
[5조 C5DE] 1, 2주차 스터디 (0) | 2024.05.17 |
[불사조] 데이터 분석을 위한 핵심 파이썬 문법 + 판다스 활용법 (0) | 2024.05.16 |
비비빅 (0) | 2024.05.08 |