인공지능/머신러닝

    머신 러닝 : Logistic Regression , Confusion Matrix

    Logistic Regression : 분류에 사용한다. (Classification) 예) 나이대별로 이메일을 클릭해서 열지 말지를 분류해 보자. 이렇게 비슷하게 생긴 함수가 이미존재한다. 이름은 sigmoid function 따라서 리니어 리그레션 식을, y 값을 시그모이드에 대입해서, 일차방정식으로 만들면 다음과 같아진다. 위와 같은 식을 가진 regression 을, Logistic Regression이라 한다. 이제 우리는, 이를 가지고 두개의 클래스로 분류할 수 있다. ( 클릭을 한다, 안한다 두개로.) import numpy as np import matplotlib.pyplot as plt import pandas as pd 우선 필요한 라이브러리들을 import 해줍니다. 데이터 프레임을..

    머신러닝 : Multiple Linear Regression

    import numpy as np import matplotlib.pyplot as plt import pandas as pd 필요 라이브러리를 import해줍니다. df=pd.read_csv('../data/50_Startups.csv') 위 csv 파일을 읽어와서 각각의 피쳐를 분석하여, 어떤 신생 회사의 데이터가 있으면, 그 회사가 얼마의 수익을 낼 지 예측합니다. (투자를 해야 할지 말아야 할지) Nan을 확인합니다. 어떤 인공지능을 개발할지 X,y 값을 세팅해줍니다. X=df.loc[:,'R&D Spend':'State'] y=df['Profit'] 문자열이 들어있는 컬럼이 있기때문에, 문자열 컬럼은 숫자로 바꿔줘야합니다. 문자열 컬럼이 카테고리컬 데이터인지 먼저 확인하고 알파벳 순으로 정렬합니..

    머신러닝 : Linear Regression

    import numpy as np import matplotlib.pyplot as plt import pandas as pd 우선 사용할 라이브러리를 import해주고, 경력과 연봉의 관계분석을 통해, 누군가 입사 했을 때 그 사람의 경력에 맞는 현봉을 제시해줄수 있도록 경력과 연봉 컬럼에 데이터가 들어있는 Csv파일을 읽습니다. 이후 shape과 describe 함수로 기본적인 정보,수치를 확인해주고 1. NaN 확인 ( 결측치 확인 ) df.isna().sum() 2. X와 y로 분리 X=df.iloc[:,0].to_frame() y = df['Salary'] 3. 문자열 데이터는 숫자로 바꿔주기. 위 데이터 프레임에는 문자열이 있지 않기 때문에 생략합니다. 4. 피쳐 스케일링 리니어 리그레션은 자..

    머신 러닝 : Training / Test set , 트레이닝 용 / 테스트 용 데이터 나누기 train_test_split()

    from sklearn.model_selection import train_test_split transform 한 X , y 를 가져온다. from sklearn.model_selection import train_test_split import를 불러온 뒤 train_test_split()을 이용하여 데이터를 트레이닝용 테스트용으로 나눠준다. X_train, X_test , y_train , y_test = train_test_split(X, y, test_size=0.2,random_state=3) test_size = => X_test, y_test 를 얼마나 저장할지 단위를 나타내주며 random_state= => random 무작위로 뽑아오는 숫자를 뜻한다 같은 식으로 같은 숫자를 대입하면 값..