본문 바로가기

Python/Machine Learning

(7)
python pandas resample [ resample() 메소드의 시간 단위 구간 설정 ] 살짝 참고만 하면 좋다. - 5분 단위 구간 : resample('5T') - 10분 단위 구간 : resample('10T') - 20분 단위 구간 : resample('20T') - 1시간 단위 구간 : resample('1H') - 1일 단위 구간 : resample('1D') - 1주일 단위 구각 : resample('1W') - 1달 단위 구간 : resample('1M') - 1년 단위 구간 : resample('1Y') # resample 'Y' 는 년도다. 년도로 리샘플한 후, 각 년도별 몇개의 범죄 데이터를 가지고 있는지 확인한다. in : df_year.chicago_df.resample('YS').size YS ( year st..
Machine Learning : 문자열 데이터를 숫자로 바꿔주는 CountVectorizer와 analyzer파라미터 문자열 데이터를 숫자로 바꿔주는 CountVectorizer와 analyzer파라미터 analyzer 파라미터는 학습단위를 결정하는 파라미터입니다. word, char 2가지 옵션 정도를 고려해볼 수 있습니다. analyzer = 'word'라고 설정시, 학습의 단위를 단어로 설정합니다. (ex - home, go, my ...) analyzer = 'char'라고 설정시, 학습의 단위를 글자로 설정합니다.(ex - a, b, c, d ...) 나이브 베이즈를 이용한 스팸 분류 PROBLEM STATEMENT 5,574개의 이메일 메시지가 있으며, 스팸인지 아닌지의 정보를 가지고 있다. 컬럼 : text, spam spam 컬럼의 값이 1이면 스팸이고, 0이면 스팸이 아닙니다. 스팸인지 아닌지 분류하는 ..
Machine Learning : Hierarchical Clusting의 Dendrogram 설명 Cust_Spend_Data.csv 파일을 통해서 고객의 의류소비, 음료소비, 음식소비 대이터를 통해서 비슷한 고객으로 그루핑 하자 import numpy as np import pandas as pd import matplotlib.pyplot as plt df = pd.read_csv('data/Cust_Spend_Data.csv') X = df.iloc[:, 2:] import scipy.cluster.hierarchy as sch sch.dendrogram( sch.linkage(X, method='ward') ) plt.title('Dendrogram') plt.xlabel('Customers') plt.ylabel('Eculidaen Distances') plt.show() out in X.s..
Machine Learning : K-means 의 WCSS와 Elbow Method 설명 K-Means Clustering Unsupervised Learning 이다. k 개의 그룹을 만든다. 즉, 비슷한 특징을 갖는 것들끼리 묶는것. - 다음을 두개, 세개, 네개 그룹 등등 원하는 그룹으로 만들 수 있다. 알고리즘 Random Initialization Trap 다음과 같은 데이터 분포가 있다고 치자. 우리가 원하는 클러스터링 그룹화는, 아래와 같은 것이다. 원치 않는 그룹화가 되어버렸다! Choosing the right number of clusters 몇개로 분류할지는 어떻게 결정하는가? K의 갯수를 정하는 방법 within-cluster sums of squares 센터가 원소들과의 거리가 멀수록 값이 커진다. 따라서 최소값에 가까워지는 갯수를 뽑되, 갯수가 너무 많아지면 차별성이..
Machine Learning : WordCloud 라이브러리 사용법과 Stopwords 적용하는 방법 실습 1. 패키지 설치 프로젝트를 위해, 아나콘다 프롬프트를 실행하고, 다음을 인스톨 한다. conda install -c conda-forge wordcloud IMPORTING DATA 아래코드를 실행시킨다. # import libraries import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sb %matplotlib inline 실습 2. pandas로 파일 읽기 - 탭으로 되어 있는 tsv 파일 읽기 df = pd.read_csv('data/amazon_alexa.tsv' , sep='\t') 실습 3. verified_reviews 컬럼의 내용이 어떤지 확인해 보세요 df.loc[:, '..
Machine Learning : Hierarchical Clustering Amazon Echo Reviews Analysis 데이터셋은 아마존의 알렉사 제품에 대한, 3000개의 리뷰로 되어있습니다. 컬럼은 rating, date, variation(제품모델), verified_reviews, feedback Dataset: www.kaggle.com/sid321axn/amazon-alexa-reviews Hierarchical Clustering Library imfort 실행하기 import numpy as np import matplotlib.pyplot as plt import pandas as pd dataset 읽어오기 df = pd.read_csv('data/Mall_Customers.csv') X = df.iloc[:, 3:] X.head() Dendrogram..
Machine Learning and Data Preprocessing(Supervised , Unsupervised/Regression(회귀) 과 Classification(분류)/ 카테고리컬 데이터를 처리하는 방법 - Label encoding / One Hot encoding/Feature Scailng : StandardScaler, MinMaxScaler Machine Learning and Data Preprocessing 머신러닝으로 할 수 있는 것 편지봉투에 손으로 쓴 우편번호 숫자 자동 판별 의료 영상 이미지에 기반한, 종양 판단 의심되는 신용카드 거래 감지 블로그 글의 주제 분류 고객들을 취향이 비슷한 그룹으로 묶기 머신러닝 : Supervised , Unsupervised 문제와 데이터 이해하기 가지고 이는 데이터가 내가 원하는 문제의 답을 가지고 있는가? 내 문제를 가장 잘 해결할 수 있는 머신러닝 방법은 무엇인가 문제를 풀기에 충분한 데이터를 모았는가? 머신러닝의 성과를 어떻게 측정할 것인가 용어 및 설명 레퍼런스 : https://www.youtube.com/watch?v=KDrys0OnVho Supervised Learning 우리는 I..