판다스(Pandas) 정리

Posted on: 2022년 01월 18일 2022년 01월 18일
Categories: 강의자료, 파이썬

Pandas 함수 실습
1. Series 관련
  1. sr = pd.Series( [‘홍길동’, 80, 90, 70] )
  2. print(sr[0], sr[1:3])
  3. sr = pd.Series( {‘name’: ‘홍길동’, ‘kor’: 80, ‘eng’:90, ‘mat’:70} )
  4. print(sr[‘name’], sr[‘kor’:’eng’])
  5. type(sr)
  6. sr.index
  7. sr.values
2. DataFrame 관련
  1. df = pd.DataFrame([[‘hong’, 90, 88, 78], [‘gil’, 95, 89, 76], [‘dong’, 85, 98, 67]], index=[11,12,13], columns=[‘name’,’kor’,’eng’,’mat’])
  2. df.loc[14] = [‘soon’, 90,90,90]
  3. df[‘tot’] = df[‘kor’] + df[‘eng’] + df[‘mat’]
  4. df = df.rename(index={11:21, 13:23})
  5. df.rename(columns={‘kor’:’국어’, ‘eng’:’영어’}, inplace=True)
  6. df.drop([12, 14], axis=0, inplace=True)
  7. df.drop([‘국어’, ‘tot’], axis=1, inplace=True)
  8. df.set_index(‘열이름’ or [‘열이름’])
  9. df = df.set_index(‘name’)
  10. df = df.set_index([‘name’, ‘kor’])
  11. df = df.reindex([202100003, 202100002, 202100001, 202100004 ])
  12. df.reset_index()
  13. df = df.sort_index(ascending=False)
  14. df = df.sort_values(by=’kor’, ascending=False)
3. CSV 파일 읽기 : pd.read_csv()
4. 행열의 개수 : df.shape
5. 처음 5개 목록 보기 : df.head(5)
6. 맨끝 5개 목록 보기 : df.tail(5)
7. 컬럼명 보기 : df.columns
8. 여러개의 도 데이터 합치고 인덱스 초기화
  1. df = pd.concat([df1, df2, df3], axis=0)
  2. df = df.reset_index(drop=True)
9. 결측치 개수 세기 : df.isnull().sum()
Pandas API Reference : Google에서 pandas api 검색
공공데이터 포털 : http://www.data.go.kr
데이터
1. 한국장학재단_대학별 평균등록금
2. 전라북도 전주시_음식점 사진
3. 전라북도 전주시_병원현황
4. 전라북도 전주시_중개업소현황
5. 전라북도 전주시_음식점 메뉴 정보
6. 전라북도 전주시_원룸 및 오피스텔 현황
7. 전라북도교육청_전라북도전주교육지원청_전주시 초등학교 현황
8. 전라북도 전주시_어린이집
9. 전라북도_강수량 정보
10. 전라북도 전주시_음식점 정보
11. 국토교통부_주택 공시가격 정보(2.4GB)
데이터 처리 연습
1. 사용데이터 : 한국장학재단_대학별 평균등록금
2. 데이터 처리
  1. 입학정원의 합계는?
  2. 설립별(국공립/사립)의 입학정원의 합계는?
  3. 지역별 입학정원의 합계는?
  4. 지역별 대학의 개수는?
3. 답안
  1. import pandas as pd
  2. df = pd.read_csv(‘univ.csv’)
  3. df.groupby(‘설립별’)[‘평균등록금(원)’].mean()
  4. df.groupby(‘설립별’)[‘평균등록금(원)’].std()
  5. df.groupby(‘설립별’).mean()
  6. df.groupby(‘지역별’).mean()
  7. df.info()
  8. df.describe()
  9. df.groupby(‘지역별’).count()

whan0623

516