본문 바로가기
카테고리 없음

데이터 분석 도전하기 - 3

by 노아론 2018. 12. 3.
3주차 연재글

데이터 분석 도전하기 - 3

이전 포스트 데이터 분석 도전하기 -1 데이터 분석 도전하기 - 2

Elice Numpy, Pandas 데이터 분석 강의와 함께 진행할 수 있습니다.

 

저번 목차에선 Numpy 라이브러리에 대해 익혔다 이번 목차에서는 Pandas에 대해 다루어 본다.

Pandas

Pandas는 R언어의 dataframe 데이터 타입을 모방하여 만든 라이브러리다. 이를 통해 데이터를 자유롭게 가공할 수 있다.

위와 같이 pd.Series() 를 사용하여 Series 데이터를 만든다.

이를 이용하여 데이터 프레임을 만들 수 있다.

GDP값을 나타내는 딕셔너리도 추가해본다.

 

위와 같이 데이터프레임이 만들어진다.

이러한 데이터프레임을 만드는 다른 방법으로 .csv 파일을 바로 읽어오는 방법이 있다.

사용방법은 아래와 같다.

이제 만들어진 데이터프레임을 가지고 상위 N번째 차트들만 출력해보려고 한다.

우선, 인구 수(population)대로 상위 3번째 데이터들을 출력해본다.

ascending = False 는 내림차순이다. 오름차순을 원한다면 ascending = True

하위 N번째까지의 데이터들도 출력할 수 있다. 아래와 같이 사용한다.

이제 공공데이터사이트를 통해 데이터를 가져와서 정렬을 해보려고 한다.

미국의 공공데이터 포털인 DATA.GOV을 통해 분야별 에너지자원 가격이 기록되어있는 파일을 가져와 석탄 가격 순서로 출력해볼 것이다.

Energy Prices, Dollars per Million Btu: Beginning 1970

https://data.ny.gov/api/views/pzgr-wqm5/rows.csv 이곳에서 바로 .csv파일에 접근할 수 있다.

read_csv()을 통해 데이터를 가져오고, sor_values()을 통하여 Coal에 대한 내림차순 정렬을 한다.

 

 

 

2010년도의 상업 가격의 Coal의 가격이 가장 높았음을 알 수 있다.

 

 

여기까지 기본적인 Pandas사용법을 익혀보았다

다음 목차에서는 조건검색, 그룹핑에 대해 다루어본다

댓글