인공지능

    머신러닝 : Multiple Linear Regression

    import numpy as np import matplotlib.pyplot as plt import pandas as pd 필요 라이브러리를 import해줍니다. df=pd.read_csv('../data/50_Startups.csv') 위 csv 파일을 읽어와서 각각의 피쳐를 분석하여, 어떤 신생 회사의 데이터가 있으면, 그 회사가 얼마의 수익을 낼 지 예측합니다. (투자를 해야 할지 말아야 할지) Nan을 확인합니다. 어떤 인공지능을 개발할지 X,y 값을 세팅해줍니다. X=df.loc[:,'R&D Spend':'State'] y=df['Profit'] 문자열이 들어있는 컬럼이 있기때문에, 문자열 컬럼은 숫자로 바꿔줘야합니다. 문자열 컬럼이 카테고리컬 데이터인지 먼저 확인하고 알파벳 순으로 정렬합니..

    머신러닝 : Linear Regression

    import numpy as np import matplotlib.pyplot as plt import pandas as pd 우선 사용할 라이브러리를 import해주고, 경력과 연봉의 관계분석을 통해, 누군가 입사 했을 때 그 사람의 경력에 맞는 현봉을 제시해줄수 있도록 경력과 연봉 컬럼에 데이터가 들어있는 Csv파일을 읽습니다. 이후 shape과 describe 함수로 기본적인 정보,수치를 확인해주고 1. NaN 확인 ( 결측치 확인 ) df.isna().sum() 2. X와 y로 분리 X=df.iloc[:,0].to_frame() y = df['Salary'] 3. 문자열 데이터는 숫자로 바꿔주기. 위 데이터 프레임에는 문자열이 있지 않기 때문에 생략합니다. 4. 피쳐 스케일링 리니어 리그레션은 자..

    머신 러닝 : Training / Test set , 트레이닝 용 / 테스트 용 데이터 나누기 train_test_split()

    from sklearn.model_selection import train_test_split transform 한 X , y 를 가져온다. from sklearn.model_selection import train_test_split import를 불러온 뒤 train_test_split()을 이용하여 데이터를 트레이닝용 테스트용으로 나눠준다. X_train, X_test , y_train , y_test = train_test_split(X, y, test_size=0.2,random_state=3) test_size = => X_test, y_test 를 얼마나 저장할지 단위를 나타내주며 random_state= => random 무작위로 뽑아오는 숫자를 뜻한다 같은 식으로 같은 숫자를 대입하면 값..

    머신러닝 : Feature Scaling , 피쳐 스케일링,StandardScaler,MinMaxScaler, 표준화,정규화

    # 유클리디언 디스턴스로 오차를 줄여 나가는데, 하나의 변수는 오차가 크고, # 하나의 변수는 오차가 작으면, 나중에 오차를 수정할때 편중되게 된다. # 따라서 값의 레인지를 맞춰줘야 정확히 트레이닝 된다. StandardScaler() rom sklearn.preprocessing import StandardScaler,MinMaxScaler 를 import 해준 뒤 StandardScaler() 가 들어 있는 변수를 만들어 준다 . (대부분 'scaler' 로 표시한다.) scaler.transform()을 불러 준뒤 train test 중 필요한 값들을 넣어준다. MinMaxScaler() from sklearn.preprocessing import StandardScaler,MinMaxScaler..