-
다중선형회귀 - Multiple Linear Regression아가개발자/머신러닝 2020. 9. 28. 15:15
다중선형회귀
수치형(실수형) 설명 변수와 연속형 숫자로 이루어진 종속 변수 간의 관계를 선형으로 가정하여 회귀 계수를 추정하는 모델 → y=b0+b1x1+b2x2+...+bkxk
b : 회귀 변수
x : 설명 변수
- 회귀 계수 결정 법
- Direct Solution
실제 값 Y와 예측 값 Y'의 오차제곱 합을 최소로 하는 값을 회귀 계수로 선정
최적의 계수를 회귀 계수에 대한 미분한 식을 0으로 놓고 풀어 해를 구함 → X, Y 데이터 만으로 회귀 계수를 구할 수 있음
- Numerical Search
경사하강법: 임의의 시작점을 잡아 해당 지점에서의 그래디언트(경사)를 구하고, 그래디언트의 반대 방향으로 조금씩 이동하는 과정을 여러 번 반복함
<경사하강법의 종류>
1. Batch Gradient Descent(GD)
파라미터를 업데이트 할 때마다 모든 학습데이터를 사용하여 cost function의 그래디언트 계산
매우 낮은 효율을 보일 수 있음
2. Stochastic Gradient Descent(SGD)
파라미터를 업데이트 할 때 무작위로 샘플링 된 데이터 하나씩 이용하여 cost function의 그래디언트 계산
Local minima(최저점이 2개 이상 생기는 것)에 빠질 가능성을 줄일 수 있음
최소 cost에 수렴하였는지 판단이 어려움
3. mini Batch Gradient Descsnt
파라미터를 업데이트 할 때 일정량의 일부 데이터를 무작위로 뽑아 cost function의 그래디언트 계산
위의 두 개념의 혼합 형태
- 정규화 (regularization)
미래데이터에 대한 오차의 기대 값을 Bias(편향), variance(분산)으로 분해 가능
정규화는 variance를 감소시켜 일반화 성능을 높이는 과정, 이 과정에서 bias가 증가할 수 있음
왼쪽 그림은 학습데이터를 잘 맞추고 있지만 미래 데이터에 대한 예측 값이 정확하지 않을 수 있음 → 과적합(over fitting)
오른쪽 그림은 강한 수준의 정규화를 수행하여 학습데이터에 대한 값이 정확하지 않더라도 미래 데이터의 변화에 상대적으로 안정적인 결과를 나타냄
예측을 잘 하기 위해서는 과녁(Truth)과 가까이 있어야 하므로 Bias가 작아야 하고, 예측 값들이 서로 가까이 붙어 있어야 하기 때문에 variance 또한 작아야 함. 따라서 첫 번째 그림이 가장 이상적임.
'아가개발자 > 머신러닝' 카테고리의 다른 글
multiple logistic regression 실습 (0) 2020.10.09 로지스틱 회귀-Logistic regression (0) 2020.09.28 KNN classification - iris (0) 2020.09.18 K-최근접 이웃(KNN: K-Nearest Neighbors) (0) 2020.09.18 데이터 전처리와 최적화2 - 데이터 변환/데이터 정제/데이터 통합/데이터 불균형 (0) 2020.09.15