Skip to content
- Pandas 함수 실습
- Series 관련
- sr = pd.Series( [‘홍길동’, 80, 90, 70] )
- print(sr[0], sr[1:3])
- sr = pd.Series( {‘name’: ‘홍길동’, ‘kor’: 80, ‘eng’:90, ‘mat’:70} )
- print(sr[‘name’], sr[‘kor’:’eng’])
- type(sr)
- sr.index
- sr.values
- DataFrame 관련
- df = pd.DataFrame([[‘hong’, 90, 88, 78], [‘gil’, 95, 89, 76], [‘dong’, 85, 98, 67]], index=[11,12,13], columns=[‘name’,’kor’,’eng’,’mat’])
- df.loc[14] = [‘soon’, 90,90,90]
- df[‘tot’] = df[‘kor’] + df[‘eng’] + df[‘mat’]
- df = df.rename(index={11:21, 13:23})
- df.rename(columns={‘kor’:’국어’, ‘eng’:’영어’}, inplace=True)
- df.drop([12, 14], axis=0, inplace=True)
- df.drop([‘국어’, ‘tot’], axis=1, inplace=True)
- df.set_index(‘열이름’ or [‘열이름’])
- df = df.set_index(‘name’)
- df = df.set_index([‘name’, ‘kor’])
- df = df.reindex([202100003, 202100002, 202100001, 202100004 ])
- df.reset_index()
- df = df.sort_index(ascending=False)
- df = df.sort_values(by=’kor’, ascending=False)
- CSV 파일 읽기 : pd.read_csv()
- 행열의 개수 : df.shape
- 처음 5개 목록 보기 : df.head(5)
- 맨끝 5개 목록 보기 : df.tail(5)
- 컬럼명 보기 : df.columns
- 여러개의 도 데이터 합치고 인덱스 초기화
- df = pd.concat([df1, df2, df3], axis=0)
- df = df.reset_index(drop=True)
- 결측치 개수 세기 : df.isnull().sum()
- Pandas API Reference : Google에서 pandas api 검색
- 공공데이터 포털 : http://www.data.go.kr
- 데이터
- 한국장학재단_대학별 평균등록금
- 전라북도 전주시_음식점 사진
- 전라북도 전주시_병원현황
- 전라북도 전주시_중개업소현황
- 전라북도 전주시_음식점 메뉴 정보
- 전라북도 전주시_원룸 및 오피스텔 현황
- 전라북도교육청_전라북도전주교육지원청_전주시 초등학교 현황
- 전라북도 전주시_어린이집
- 전라북도_강수량 정보
- 전라북도 전주시_음식점 정보
- 국토교통부_주택 공시가격 정보(2.4GB)
- 데이터 처리 연습
- 사용데이터 : 한국장학재단_대학별 평균등록금
- 데이터 처리
- 입학정원의 합계는?
- 설립별(국공립/사립)의 입학정원의 합계는?
- 지역별 입학정원의 합계는?
- 지역별 대학의 개수는?
- 답안
- import pandas as pd
- df = pd.read_csv(‘univ.csv’)
- df.groupby(‘설립별’)[‘평균등록금(원)’].mean()
- df.groupby(‘설립별’)[‘평균등록금(원)’].std()
- df.groupby(‘설립별’).mean()
- df.groupby(‘지역별’).mean()
- df.info()
- df.describe()
- df.groupby(‘지역별’).count()
error: Content is protected !!