분류 전체보기
-
의사결정나무(Decision Tree) 실습카테고리 없음 2020. 11. 9. 21:49
의사결정나무(Decision Tree): 학습 데이터를 분석하여 데이터안에 내재되어 있는 패턴을 통해 새롭게 관측된 데이터를 예측/분류하는 방법론 의사결정나무 (Decision Tree) 개념 포스트 의사결정나무 - Decision Tree 의사결정나무 : 학습데이터를 분석하여 데이터의 내재된 패턴을 통해 새로운 데이터를 예측/분류 하는 모델 - 의사결정나무 생성 과정 학습 데이터의 Y값과 X 데이터를 적절한 분리 기준과 정지 yu1moo.tistory.com Decision Tree Regression 데이터 셋 불러오기 sklearn.datasets 라이브러리를 이용하여 캘리포니아 데이터셋을 불러온다. 더보기 manual: scikit-learn.org/stable/modules/generated/s..
-
의사결정나무 - Decision Tree아가개발자/머신러닝 2020. 10. 20. 15:41
의사결정나무 : 학습데이터를 분석하여 데이터의 내재된 패턴을 통해 새로운 데이터를 예측/분류 하는 모델 - 의사결정나무 생성 과정 학습 데이터의 Y값과 X 데이터를 적절한 분리 기준과 정지 규칙(ex. 트리의 깊이 등)을 지정하여 의사결정나무를 생성 - 의사결정나무의 장점 1. 나무구조로 되어 있기 때문에 모델을 이해기가 쉽고 적용하기가 용이하다 2. 의사결정에 대한 설명(해석)이 가능하다 → 왜 이렇게 예측 되었는지에 대해 설명이 가능함 3. 중요한 변수를 선택하는데 유용하다 → 상단에서 사용된 설명 변수가 가장 중요한 변수 4. 데이터의 통계적 가정이 필요 없음 → 예를 들어 LDA는 데이터의 정규성을 가정함 - 의사결정나무의 단점 1. 좋은 모형을 만들기 위해서는 많은 데이터를 필요로 한다. 2. ..
-
선형 판별 분석(LDA) 실습아가개발자/머신러닝 2020. 10. 14. 15:38
Linear Discriminant Analysis(LDA): 범주화된 클래스들의 표본들이 어떻게 분포되어 있는지를 파악하여 결정경계를 분석하여 새로운 표본이 어느 클래스에 해당하는지 결정하는 방법론 판별 분석 (Discriminant Analysis)개념 포스트 선형 판별 분석(LDA)/ 이차 판별 분석(QDA)개념 포스트 본 포스팅에서 실습할 문제는 iris dataset을 이용하여 iris의 품종을 분류하는 문제를 풀어볼 것이다. (사용한 라이브러리의 매뉴얼은 접은글에 첨부하였음) 데이터 불러오기 앞서 여러실습에서 살펴보았듯이 싸이킷런에 학습에서 사용되는 많은 데이터셋을 불러올 수 있다. 더보기 manual: scikit-learn.org/stable/modules/generated/sklearn...
-
선형 판별 분석(LDA)/ 이차 판별 분석(QDA)아가개발자/머신러닝 2020. 10. 13. 11:57
선형 판별 분석(LDA: LinearDiscriminantAnalysis) 가정(Assumptions) 선형 판별 분석은 각 클래스 집단이 정규분포의 형태의 확률 분포를 가진다고 가정함 선형 판별 분석은 각 클래스 집단이 비슷한 형태의 공분산 구조를 가진다고 가정함 판별과 차원 축소의 기능 2차원(두 가지 독립변수)의 두 가지 범주를 갖는 데이터를 분류하는 문제에서 LDA는 하나의 차원에 Prohection을 하여 차원을 축소 시킴 - LDA는 차원 축소의 개념을 포함함 - 2차원 자료들을 판별 축에 정사영 시킨 분포의 형태를 고려 결정 경계의 특징 결정 경계: projection축에 직교하는 축(점선) 결정 경계는 우측 그림과 같이 각 클래스 집단의 평균의 차이가 크고 분산이 작은 지점을 결정 경계로 ..
-
판별 분석 (Discriminant Analysis)아가개발자/머신러닝 2020. 10. 12. 14:54
판별 분석이란? : 두개 이상의 모집단에서의 표본들이 지닌 정보 (분포)를 이용하여 이 표본들이 어느 모집단에서 추출된 것인지 결정하는 기준을 찾는 분석법 클래스 구분이 어려운 LD2에 투영된 판별 벡터보다 두개의 클래스를 잘 구분지어주는 LD1에 투영된 판별벡터를 찾아주어야 함 판별 분석의 기초개념 판별 변수: 어떤 집단에 속하는지 판별하기 위한 변수로 독립 변수 중 판별력이 높은 변수를 뜻한다. 판별변수는 판별 변수와 상관관계가 적은 독립 변수를 선택하여 판별 함수를 만들어야 한다. 판별 함수: 판별 함수를 이용하여 각 개체들이 소속 집단에 얼마나 잘 판별되는가에 대한 판별력을 측정하고 각 집단을 가장 잘 구분할 수 있는 판별식을 만들어 분별하는 과정 판별 점수: 판별 함수에 어떤 대상을 대입하여 그..
-
multiple logistic regression 실습아가개발자/머신러닝 2020. 10. 9. 02:51
multiple logistic regression(다중 로지스틱 회귀): Y값이 범주형 숫자로 된 데이터에 회귀를 적용하는 모델 범주형 숫자로 된 데이터 즉, 분류 문제는 Linear regression으로는 문제를 해결할 수 없지만 Logistic regression을 적용하여 회귀로 문제를 해결할 수 있다. 로지스틱 회귀 개념 포스트 본 포스팅에서 실습할 문제는 wine dataset을 이용하여 wine의 종류를 분류하는 문제를 풀어볼 것이다. (사용한 라이브러리의 매뉴얼은 접은글에 첨부하였음) 데이터셋 로드 wine 데이터는 sklearn을 이용하여 불러올 수 있다. 왠만하면 sklearn.datasets. 라이브러리를 이용하여 학습에 자주 쓰이는 유명한 데이터는 다운받을 수 있다. 더보기 man..
-
로지스틱 회귀-Logistic regression아가개발자/머신러닝 2020. 9. 28. 19:18
로지스틱 회귀 범주형 숫자로 이루어진 데이터를 사용하여 회귀 계수를 추정하는 모델 S-커브 함수를 나타냄 (시그모이드 함수) → 출력 값이 항상 0과1 사이의 값을 가짐 승산 (Odds) 임의의 사건 A가 발생하지 않을 확률 대비 일어날 확률의 비율 odds = P(A) / 1 - P(A) P(A)가 1에 가까울 수록 승산은 커진다. P(A)가 0일 경우 승산도 0 이항 로지스틱 회귀 Y=b0+b1x1+b2x2+...+bkxk Y가 범주형 일 경우, 회귀 모델을 적용할 수 없음 1. Y를 확률식으로 바꿔줌 좌변의 범위는 [0,1], 우변의 범위는 [-inf, inf] 2. Y를 승산으로 바꿔줌 좌변의 범위는 [0, inf], 우변의 범위는 [-inf, inf] 3. Y 승산에 로그를 취해줌 좌변의 범위는..
-
다중선형회귀 - Multiple Linear Regression아가개발자/머신러닝 2020. 9. 28. 15:15
다중선형회귀 수치형(실수형) 설명 변수와 연속형 숫자로 이루어진 종속 변수 간의 관계를 선형으로 가정하여 회귀 계수를 추정하는 모델 → y=b0+b1x1+b2x2+...+bkxk b : 회귀 변수 x : 설명 변수 회귀 계수 결정 법 - Direct Solution 실제 값 Y와 예측 값 Y'의 오차제곱 합을 최소로 하는 값을 회귀 계수로 선정 최적의 계수를 회귀 계수에 대한 미분한 식을 0으로 놓고 풀어 해를 구함 → X, Y 데이터 만으로 회귀 계수를 구할 수 있음 - Numerical Search 경사하강법: 임의의 시작점을 잡아 해당 지점에서의 그래디언트(경사)를 구하고, 그래디언트의 반대 방향으로 조금씩 이동하는 과정을 여러 번 반복함 1. Batch Gradient Descent(GD) 파라미..