-
선형 판별 분석(LDA)/ 이차 판별 분석(QDA)아가개발자/머신러닝 2020. 10. 13. 11:57
선형 판별 분석(LDA: LinearDiscriminantAnalysis)
- 가정(Assumptions)
선형 판별 분석은 각 클래스 집단이 정규분포의 형태의 확률 분포를 가진다고 가정함
선형 판별 분석은 각 클래스 집단이 비슷한 형태의 공분산 구조를 가진다고 가정함
- 판별과 차원 축소의 기능
2차원(두 가지 독립변수)의 두 가지 범주를 갖는 데이터를 분류하는 문제에서 LDA는 하나의 차원에 Prohection을 하여 차원을 축소 시킴
- LDA는 차원 축소의 개념을 포함함
- 2차원 자료들을 판별 축에 정사영 시킨 분포의 형태를 고려
- 결정 경계의 특징
결정 경계: projection축에 직교하는 축(점선)
결정 경계는 우측 그림과 같이 각 클래스 집단의 평균의 차이가 크고 분산이 작은 지점을 결정 경계로 지정하는 것이 효율적이다. 즉, 두 집단의 사영 데이터 분포가 겹치는 영역이 작은 결정 경계를 선택하는 것이 좋음.
- 장단점
- 장점
변수 간 공분산 구조를 반영함
공분산 구조 가정이 살짝 위반되더라도 비교적 원활하게 동작함
-단점
가장 작은 그룹의 샘플의 수가 설명 변수의 개수보다 많아야 함
정규분포 가정에서 크게 벗어날 경우 잘 동작하지를 못한다
범주 사이에 공분산 구조가 많이 다를 경우를 반영하지 못한다.
이차 판별 분석 (QDA: Quadratic discriminant analysis)
LDA의 결정 경계는 선형으로 가정하고 있기 때문에 Y의 범주 별로 서로 다른 공분산 구조에서의 분류에 어려움이 있다.
이차 판별 분석은 Y의 범주가 서로 다른 공분산 구조를 가진 경우에서 활용이 가능하다.
좌측은 클래스 별 같은 공분산 구조를 가진다고 가정한 LDA의 선형 분류이며, 우측은 클래스 별 다른 공분산 구조를 가진다고 가정한 QDA의 비선형 분류이다. 우측 결정 경계가 클래스를 더 잘 분류한 것을 확인할 수 있다.
- 장단점
장점
- 비선형 분류가 가능하다.
단점
- 설명 변수의 개수가 많을 경우, 추정해야 하는 모수가 많아짐 → 연산량이 큼
'아가개발자 > 머신러닝' 카테고리의 다른 글
의사결정나무 - Decision Tree (0) 2020.10.20 선형 판별 분석(LDA) 실습 (0) 2020.10.14 판별 분석 (Discriminant Analysis) (0) 2020.10.12 multiple logistic regression 실습 (0) 2020.10.09 로지스틱 회귀-Logistic regression (0) 2020.09.28