CDS 9

Machine Learning [Coding Sample]

👾 따로따로 공부하다보면 이게 어떻게 연결이 되는건지 감이 잘 안오기도 하는데 코딩 샘플로 쭈욱 플로우를 보다 보니 이해가 훨씬 더 쉬워서 올리는, 우선 비즈니스 이해부터 하는게 가장 중요한데 이번에 해본 코딩은 '주식' 관련 샘플 데이터를 다운받아 Close column, 즉 주식이 종료되는 시점 주가를 예측하는 작업이다 👉 전체적으로 데이터 파일csv을 다운받고, 데이터를 불러오고, 데이터를 확인한 다음 👉 EDA 분석을 하고 👉 matplot 호출을 통해 그림 / 그래프를 그려보고 👉 학습을 위해 학습 데이터와 평가 데이터를 나눈뒤 👉 Linear Regression 모델을 학습시켜서 평가까지 진행한다 👉 추가로 MinMaxScaler도 이용하여 범위 조정 후 다시 모델 학습을 진행해본다 📌 주식 ..

CDS 2021.11.16

Machine Learning [Linear Regression]

📌 회귀분석의 종류 ✔️ 단순 회귀 분석 - 특성의 개수가 1개이며 레이블과의 관계가 직선인 경우 ✔️ 다중 회귀 분석 - 특성의 개수가 N개이며 레이블과의 관계가 선형인 경우(1차 함수) ✔️ 다항 회귀 분석 - 특성의 개수가 N개이며 레이블과의 관계가 비선형인 경우(1차 함수 이상) ✔️ 비선형 회귀 분석 - 회귀 식의 모양이 선형 관계로 이루어져 있지 않는 모델 📌 회귀 분석 성능 평가 척도 ✔️ R-squared - 실제 값의 분산 대비 예측 값의 분산 비율 (최고:1, 최악:음수) - '설명력'이라고도 불림 ✔️ Mean Absolute Error - 실제 값과 예측 값의 차이를 절대값으로 변환하여 평균 계산 - 작을수록 좋지만 너무 작으면 과적합일 수 있음 ✔️ Mean Squared Erro..

CDS 2021.11.16

Machine Learning [Scaling]

📌 Scaling - 특정 알고리즘은 데이터의 관측 범위에 많은 영향이 있어 스케일링 통해 관측범위 일정하게 맞추는 작업 필요 - 주로 Standardization(표준화), Normalization(정규화) 이용 - ML모델은 data set 전체 변환하지 않고 학습 데이터만 변환 학습 👉 이전에 설명했던 iris_bunch data를 이용하여 관측을 해보자 #pandas를 이용하여 DataFrame을 만들어 iris_df에 저장 import pandas as pd iris_df = pd.DataFrame(iris_bunch.data) #matplotlib를 이용하여 그래프 그리기 boxplot import matplotlib.pyplot as plt plt.boxplot(iris_bunch.data)..

CDS 2021.11.15

Machine Learning [Scikit-Learn]

📌 Scikit-Learn - 2007년 구글 썸머 코드에서 처음 구현된, 현재 python으로 구현된 가장 유명한 기계 학습 open source library - 통일된 interface를 통해 여러 기법 간단하게 적용 가능 -> 쉽고 빠른 최상의 결과 추출 가능 - library 구성 : 지도 학습, 비지도 학습, Model 선택 및 평가, Data 변환 지도 학습 벡터 머신, 결정 트리 (Decision Tree) 비지도 학습 군집화 (Clustering), 이상치 검출 모델 모델 선택 및 평가 교차 검증 (Cross-Validation), 파이프라인 (Pipeline) 데이터 변환 속성 추출 (Feature Extraction), 전처리 (Preprocessing) - 정제된 연습용 Data S..

CDS 2021.11.15

Machine Learning Overview

👉 간단히 말하는 머신러닝의 프로세스 1. 첫단추는 "비즈니스 이해" 비즈니스 이해하고 목표를 설정하게 되면 Data를 targeting하게 된다 2. Data 전처리 3. Data 탐색 4. 머신러닝 -> 학습 -> 결과 (결과가 안 좋으면 다시 한번 머신러닝 돌리기) 📌Machine Learning Pipeline Process Description Output Business Understand (비즈니스 이해) 비즈니스 이해 후 목표 설정 1) Data Loading DataSet 불러오기 (csv, excel, sql...) - train set (학습용, 레이블 O) - test set (평가용, 레이블 X) DataSets (All, Train, Test) 2) Data Preprocessi..

CDS 2021.11.15

Data Visulization : Seaborn(데이터 시각화)

📌Seaborn matplotlib를 기반으로 하는 Python visualization library, attractive한 통계적 그래프를 제공함 ✔️ 공식 : http://seaborn.pydata.org seaborn: statistical data visualization — seaborn 0.11.2 documentation Seaborn is a Python data visualization library based on matplotlib. It provides a high-level interface for drawing attractive and informative statistical graphics. For a brief introduction to the ideas behind ..

CDS 2021.11.12

Data Visulization : Matplotlib(데이터 시각화)

import numpy as np import matplotlib.pyplot as plt 📌 Matplotlib -Python과 Numpy에서 plotting을 위해 사용되며 주로 2D 도표를 위한 desktop package -IPython과 통합하여 과학 계산 컴퓨팅을 위한 다양한 기능 구축 -IPython, GUI toolkit을 maplotlib를 사용하면 대화형 기능도 구축 가능 x = np.arange(10) plt.plot(x) #plt.plot(a)라고 할 때 x축은 a의 index이며 y축은 a의 요소값 x = np.arange(10) y = x ** 2 plt.plot(x, y) #결과로 2차 곡선이 나오게 됨 📌 plot을 그릴 시 스타일 지정 가능 문자 색상 마커 모양 b Blue..

CDS 2021.11.12

EDA (Exploratory Data Analysis)

📌 EDA ('탐색적 자료 분석') numpy, pandas에 이어서 수집한 데이터가 들어왔을 때 데이터를 다양한 각도에서 관찰하고 이해하는 과정인 EDA이다. 평균, 표준편차, median, outlier, missing value, 분포 모양 등을 활용 from IPython.display import Image import numpy as np import pandas as pd import seaborn as sns #image 가져오는 모듈 EDA를 하기 위해서 기본적으로 추가되는 import module은 위와 같다 차근차근 EDA를 위한 step을 밟아본다 df = sns.load_dataset("titanic") #타이타닉이라는 데이터셋 로드 df.head() #데이터 중 맨 앞 5개 행만..

CDS 2021.11.12