본문 바로가기

Python/Pandas

(6)
Pandas : 대중교통 / 범죄현황 / seaborn / pairplot subwayfee.csv 파일을 통한 지하철 유무임별 이용현황 데이터 분석 자료출처 : t-money.co.kr 에서 자료를 제공함. df = pd.read_csv('data/subwayfee.csv', encoding='cp949') df.head(3) df['역ID'].nunique() df['지하철역'].nunique() df['호선명'].nunique() df['호선명'].unique() #####out array(['1호선', '2호선', '3호선', '4호선', '경부선', '경인선', '경원선', '안산선', '과천선', '분당선', '일산선', '중앙선', '장항선', '경의선', '경춘선', '수인선', '경강선', '5호선', '6호선', '7호선', '8호선', '9호선', '공항철도..
Pandas : pivot_table / Dates and Times/Frequencies and Offsets pandas의 pivot_table 익히기 1. 일단 df.to_csv('new_crime_in_Seoul.csv') 을 불러온다. import pandas as pd import numpy as np 2. 피봇팅 한다. 즉 컬럼의 값을 열로 만드는것. df = pd.read_excel('data/sales-funnel.xlsx') # 인덱스를 중복된값으로 설정한것은 잘못 만든것이다. # 중복데이터가 있으면 하나로 합쳐서 인덱스로 뽑되, 수치데이터만을 뽑아 평균데이터로 하나로 합치는것이다. pd.pivot_table(df,index=['Name'] , aggfunc = np.max) pd.pivot_table(df,index=['Manager','Rep'],aggfunc= np.sum) pd.pivot_..
pandas : Google Map API(Geocoding API 설정방법) /csv file 불러오기 / encoding import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sb %matplotlib inline import platform from matplotlib import font_manager, rc plt.rcParams['axes.unicode_minus'] = False if platform.system() == 'Darwin': rc('font', family='AppleGothic') elif platform.system() == 'Windows': path = "c:/Windows/Fonts/malgun.ttf" font_name = font_manager.FontProperties(fname=p..
pandas : Tindy Data / Bar Charts / Pie Charts /Histogram/Figures, Axes and Subplots/Heat Maps /seaborn/pairplot / cprr함수, 차트로 표현하기 Tidy Data each variable is a column each observation is a row each type of observational unit is a table 가장기본적인 Plot import matplotlib.pyplot as plt import numpy as np x = np.arange(0, 9+1) x array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]) y = x y array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]) plt.plot(x , y) plt.savefig('test1.jpg') plt.show() 결과 제너레이션 아이디별로, 각 각 몇개씩 있는지 차트로 표시 df.head(3) sb.countplot(data= df, x..
pandas : 기온데이터분석 / 히스토그램 기온데이터 분석 * 1907년부터 2018년3월까지의 서울 기온 데이터를 CSV로 다운로드 한다. - 다운로드 파일을 미리 제공해서 폴더에 넣어두었습니다. seoul.csv 파일을 열어 보세요. encoding='cp949' import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sb %matplotlib inline import platform from matplotlib import font_manager, rc plt.rcParams['axes.unicode_minus'] = False if platform.system() == 'Darwin': rc('font', family='AppleGoth..
pandas : Series/Label&Index/NaN Pandas 의 장점 Allows the use of labels for rows and columns 기본적인 통계데이터 제공 NaN values 를 알아서 처리함. 숫자 문자열을 알아서 로드함. 데이터셋들을 merge 할 수 있음. It integrates with NumPy and Matplotlib Pandas Series 데이터 생성하기 * 필수암기(pandas의 1차원 데이터를 Series(시리즈)라고 부른다 ) Accessing and Deleting Elements in Pandas Series - 레이블과 인덱스 Arithmetic Operations on Pandas Series 실습 import pandas as pd 1. 다음과 같은 레이블과 값을 가지는 Pandas Series 를..