전체 글 67

Decision Tree

📌 Decision Tree - 트리 구조를 이용하여 데이터 사이에 존재하는 패턴을 예측 가능한 규칙들의 조합으로 나타내는 알고리즘 - 분류 (범주형 레이블)와 회귀 (연속형 레이블)에 모두 사용 가능 - 각 변수 영역을 재귀적으로 분할하면서 규칙 생성 (If-else) - 분류의 경우 특성의 영역을 분할하면서 정보 균일도가 높게 하도록 분할하며 회귀의 경우 잔차 제곱합이 최소가 되도록 분할 ✔️ 스무고개와 유사 Ex. 어머니가 소고기를 사실까? 1. 어머니가 오른쪽 시장으로 가면 정육점이 멀어지므로 소고기를 살 확률이 낮아진다. 2. 어머니가 왼쪽 시장으로 가면 정육점이 가까워지므로 소고기를 살 확률이 높아진다. 여기서 확률이 높은 2번을 택하고 1. 정육점 사장님이 오늘 할인을 해주시면 소고기를 살 ..

카테고리 없음 2021.11.17

Machine Learning [Coding Sample]

👾 따로따로 공부하다보면 이게 어떻게 연결이 되는건지 감이 잘 안오기도 하는데 코딩 샘플로 쭈욱 플로우를 보다 보니 이해가 훨씬 더 쉬워서 올리는, 우선 비즈니스 이해부터 하는게 가장 중요한데 이번에 해본 코딩은 '주식' 관련 샘플 데이터를 다운받아 Close column, 즉 주식이 종료되는 시점 주가를 예측하는 작업이다 👉 전체적으로 데이터 파일csv을 다운받고, 데이터를 불러오고, 데이터를 확인한 다음 👉 EDA 분석을 하고 👉 matplot 호출을 통해 그림 / 그래프를 그려보고 👉 학습을 위해 학습 데이터와 평가 데이터를 나눈뒤 👉 Linear Regression 모델을 학습시켜서 평가까지 진행한다 👉 추가로 MinMaxScaler도 이용하여 범위 조정 후 다시 모델 학습을 진행해본다 📌 주식 ..

CDS 2021.11.16

Machine Learning [Linear Regression]

📌 회귀분석의 종류 ✔️ 단순 회귀 분석 - 특성의 개수가 1개이며 레이블과의 관계가 직선인 경우 ✔️ 다중 회귀 분석 - 특성의 개수가 N개이며 레이블과의 관계가 선형인 경우(1차 함수) ✔️ 다항 회귀 분석 - 특성의 개수가 N개이며 레이블과의 관계가 비선형인 경우(1차 함수 이상) ✔️ 비선형 회귀 분석 - 회귀 식의 모양이 선형 관계로 이루어져 있지 않는 모델 📌 회귀 분석 성능 평가 척도 ✔️ R-squared - 실제 값의 분산 대비 예측 값의 분산 비율 (최고:1, 최악:음수) - '설명력'이라고도 불림 ✔️ Mean Absolute Error - 실제 값과 예측 값의 차이를 절대값으로 변환하여 평균 계산 - 작을수록 좋지만 너무 작으면 과적합일 수 있음 ✔️ Mean Squared Erro..

CDS 2021.11.16

Machine Learning [Scaling]

📌 Scaling - 특정 알고리즘은 데이터의 관측 범위에 많은 영향이 있어 스케일링 통해 관측범위 일정하게 맞추는 작업 필요 - 주로 Standardization(표준화), Normalization(정규화) 이용 - ML모델은 data set 전체 변환하지 않고 학습 데이터만 변환 학습 👉 이전에 설명했던 iris_bunch data를 이용하여 관측을 해보자 #pandas를 이용하여 DataFrame을 만들어 iris_df에 저장 import pandas as pd iris_df = pd.DataFrame(iris_bunch.data) #matplotlib를 이용하여 그래프 그리기 boxplot import matplotlib.pyplot as plt plt.boxplot(iris_bunch.data)..

CDS 2021.11.15

Machine Learning [Scikit-Learn]

📌 Scikit-Learn - 2007년 구글 썸머 코드에서 처음 구현된, 현재 python으로 구현된 가장 유명한 기계 학습 open source library - 통일된 interface를 통해 여러 기법 간단하게 적용 가능 -> 쉽고 빠른 최상의 결과 추출 가능 - library 구성 : 지도 학습, 비지도 학습, Model 선택 및 평가, Data 변환 지도 학습 벡터 머신, 결정 트리 (Decision Tree) 비지도 학습 군집화 (Clustering), 이상치 검출 모델 모델 선택 및 평가 교차 검증 (Cross-Validation), 파이프라인 (Pipeline) 데이터 변환 속성 추출 (Feature Extraction), 전처리 (Preprocessing) - 정제된 연습용 Data S..

CDS 2021.11.15

Machine Learning Overview

👉 간단히 말하는 머신러닝의 프로세스 1. 첫단추는 "비즈니스 이해" 비즈니스 이해하고 목표를 설정하게 되면 Data를 targeting하게 된다 2. Data 전처리 3. Data 탐색 4. 머신러닝 -> 학습 -> 결과 (결과가 안 좋으면 다시 한번 머신러닝 돌리기) 📌Machine Learning Pipeline Process Description Output Business Understand (비즈니스 이해) 비즈니스 이해 후 목표 설정 1) Data Loading DataSet 불러오기 (csv, excel, sql...) - train set (학습용, 레이블 O) - test set (평가용, 레이블 X) DataSets (All, Train, Test) 2) Data Preprocessi..

CDS 2021.11.15

Data Visulization : Seaborn(데이터 시각화)

📌Seaborn matplotlib를 기반으로 하는 Python visualization library, attractive한 통계적 그래프를 제공함 ✔️ 공식 : http://seaborn.pydata.org seaborn: statistical data visualization — seaborn 0.11.2 documentation Seaborn is a Python data visualization library based on matplotlib. It provides a high-level interface for drawing attractive and informative statistical graphics. For a brief introduction to the ideas behind ..

CDS 2021.11.12