Machine Learning : 문자열 데이터를 숫자로 바꿔주는 CountVectorizer와 analyzer파라미터
문자열 데이터를 숫자로 바꿔주는 CountVectorizer와 analyzer파라미터 analyzer 파라미터는 학습단위를 결정하는 파라미터입니다. word, char 2가지 옵션 정도를 고려해볼 수 있습니다. analyzer = 'word'라고 설정시, 학습의 단위를 단어로 설정합니다. (ex - home, go, my ...) analyzer = 'char'라고 설정시, 학습의 단위를 글자로 설정합니다.(ex - a, b, c, d ...) 나이브 베이즈를 이용한 스팸 분류 PROBLEM STATEMENT 5,574개의 이메일 메시지가 있으며, 스팸인지 아닌지의 정보를 가지고 있다. 컬럼 : text, spam spam 컬럼의 값이 1이면 스팸이고, 0이면 스팸이 아닙니다. 스팸인지 아닌지 분류하는 ..
Pandas : 대중교통 / 범죄현황 / seaborn / pairplot
subwayfee.csv 파일을 통한 지하철 유무임별 이용현황 데이터 분석 자료출처 : t-money.co.kr 에서 자료를 제공함. df = pd.read_csv('data/subwayfee.csv', encoding='cp949') df.head(3) df['역ID'].nunique() df['지하철역'].nunique() df['호선명'].nunique() df['호선명'].unique() #####out array(['1호선', '2호선', '3호선', '4호선', '경부선', '경인선', '경원선', '안산선', '과천선', '분당선', '일산선', '중앙선', '장항선', '경의선', '경춘선', '수인선', '경강선', '5호선', '6호선', '7호선', '8호선', '9호선', '공항철도..
pandas : Tindy Data / Bar Charts / Pie Charts /Histogram/Figures, Axes and Subplots/Heat Maps /seaborn/pairplot / cprr함수, 차트로 표현하기
Tidy Data each variable is a column each observation is a row each type of observational unit is a table 가장기본적인 Plot import matplotlib.pyplot as plt import numpy as np x = np.arange(0, 9+1) x array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]) y = x y array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]) plt.plot(x , y) plt.savefig('test1.jpg') plt.show() 결과 제너레이션 아이디별로, 각 각 몇개씩 있는지 차트로 표시 df.head(3) sb.countplot(data= df, x..