인공지능/머신러닝

    머신러닝 : BREAST CANCER CLASSIFICATION 예제풀이

    라이브러리 임포트 import pandas as pd # Import Pandas for data manipulation using dataframes import numpy as np # Import Numpy for data statistical analysis import matplotlib.pyplot as plt # Import matplotlib for data visualisation import seaborn as sb # Statistical data visualization %matplotlib inline from sklearn.datasets import load_breast_cancer cancer=load_breast_cancer() cancer cancer.keys() prin..

    머신러닝 : Support Vector Machine SVM

    # Importing the libraries import numpy as np import matplotlib.pyplot as plt import pandas as pd 사용할 라이브러리들을 임포트 해주고, 데이터 프레임을 읽어옵니다. X = df.iloc[:,[2,3]] y=df['Purchased'] X와 y 분리 from sklearn.preprocessing import MinMaxScaler scaler_X = MinMaxScaler() X=scaler_X.fit_transform(X) from sklearn.model_selection import train_test_split X_train,X_test,y_train,y_test = train_test_split(X,y, test_size..

    머신 러닝 : KNN알고리즘 (K-Nearest Neighbor)

    # Importing the libraries import numpy as np import matplotlib.pyplot as plt import pandas as pd 다음처럼 카테고리가 레이블링 되어 있는 데이터가 존재합니다. 새로운 데이터가 생겼을때, 이를 어디로 분류해야 할까요? 왜 빨간색으로 분류를 했을까요. 내 주위에 몇개의 이웃을 확인해 볼것인가를 결정한다. => K 새로운 데이터가 발생 시, Euclidean distance 에 의해서, 가장 가까운 K 개의 이웃을 택한다. K 개의 이웃의 카테고리를 확인한다. 카테고리의 숫자가 많은 쪽으로, 새로운 데이터의 카테고리를 정해버린다. df=pd.read_csv('../data/Social_Network_Ads.csv') df 데이터 프레임..

    머신 러닝 : Logistic Regression up sampling기법 imblearn.over_sampling SMOTE

    위와 같은 사진의 데이터프레임에서 당뇨병을 분류하는 모델을 만드는 도중 y값을 'class'컬럼으로 두었다. 당뇨병 환자는 1, 아닐 경우 0이다. sb.countplot(data=df,x='class') plt.show() 위 코드를 작성하여 시각화 해보니 당뇨병인 사람의 데이터가 훨씬 적다. 그래서 up sampling 기법으로, 당뇨병 데이터를 늘려보았다. from imblearn.over_sampling import SMOTE sm = SMOTE(random_state=2) X,y=sm.fit_resample(X,y) X 'class'의 밸류 값들이 1도 500 / 0도 500으로된 것을 확인할 수 있다. 이후 피처스케일링부터 검증까지 해주고 이를 seaborn의 heatmap으로 시각화까지 해보..