아가개발자
-
선형 판별 분석(LDA)/ 이차 판별 분석(QDA)아가개발자/머신러닝 2020. 10. 13. 11:57
선형 판별 분석(LDA: LinearDiscriminantAnalysis) 가정(Assumptions) 선형 판별 분석은 각 클래스 집단이 정규분포의 형태의 확률 분포를 가진다고 가정함 선형 판별 분석은 각 클래스 집단이 비슷한 형태의 공분산 구조를 가진다고 가정함 판별과 차원 축소의 기능 2차원(두 가지 독립변수)의 두 가지 범주를 갖는 데이터를 분류하는 문제에서 LDA는 하나의 차원에 Prohection을 하여 차원을 축소 시킴 - LDA는 차원 축소의 개념을 포함함 - 2차원 자료들을 판별 축에 정사영 시킨 분포의 형태를 고려 결정 경계의 특징 결정 경계: projection축에 직교하는 축(점선) 결정 경계는 우측 그림과 같이 각 클래스 집단의 평균의 차이가 크고 분산이 작은 지점을 결정 경계로 ..
-
판별 분석 (Discriminant Analysis)아가개발자/머신러닝 2020. 10. 12. 14:54
판별 분석이란? : 두개 이상의 모집단에서의 표본들이 지닌 정보 (분포)를 이용하여 이 표본들이 어느 모집단에서 추출된 것인지 결정하는 기준을 찾는 분석법 클래스 구분이 어려운 LD2에 투영된 판별 벡터보다 두개의 클래스를 잘 구분지어주는 LD1에 투영된 판별벡터를 찾아주어야 함 판별 분석의 기초개념 판별 변수: 어떤 집단에 속하는지 판별하기 위한 변수로 독립 변수 중 판별력이 높은 변수를 뜻한다. 판별변수는 판별 변수와 상관관계가 적은 독립 변수를 선택하여 판별 함수를 만들어야 한다. 판별 함수: 판별 함수를 이용하여 각 개체들이 소속 집단에 얼마나 잘 판별되는가에 대한 판별력을 측정하고 각 집단을 가장 잘 구분할 수 있는 판별식을 만들어 분별하는 과정 판별 점수: 판별 함수에 어떤 대상을 대입하여 그..
-
multiple logistic regression 실습아가개발자/머신러닝 2020. 10. 9. 02:51
multiple logistic regression(다중 로지스틱 회귀): Y값이 범주형 숫자로 된 데이터에 회귀를 적용하는 모델 범주형 숫자로 된 데이터 즉, 분류 문제는 Linear regression으로는 문제를 해결할 수 없지만 Logistic regression을 적용하여 회귀로 문제를 해결할 수 있다. 로지스틱 회귀 개념 포스트 본 포스팅에서 실습할 문제는 wine dataset을 이용하여 wine의 종류를 분류하는 문제를 풀어볼 것이다. (사용한 라이브러리의 매뉴얼은 접은글에 첨부하였음) 데이터셋 로드 wine 데이터는 sklearn을 이용하여 불러올 수 있다. 왠만하면 sklearn.datasets. 라이브러리를 이용하여 학습에 자주 쓰이는 유명한 데이터는 다운받을 수 있다. 더보기 man..
-
로지스틱 회귀-Logistic regression아가개발자/머신러닝 2020. 9. 28. 19:18
로지스틱 회귀 범주형 숫자로 이루어진 데이터를 사용하여 회귀 계수를 추정하는 모델 S-커브 함수를 나타냄 (시그모이드 함수) → 출력 값이 항상 0과1 사이의 값을 가짐 승산 (Odds) 임의의 사건 A가 발생하지 않을 확률 대비 일어날 확률의 비율 odds = P(A) / 1 - P(A) P(A)가 1에 가까울 수록 승산은 커진다. P(A)가 0일 경우 승산도 0 이항 로지스틱 회귀 Y=b0+b1x1+b2x2+...+bkxk Y가 범주형 일 경우, 회귀 모델을 적용할 수 없음 1. Y를 확률식으로 바꿔줌 좌변의 범위는 [0,1], 우변의 범위는 [-inf, inf] 2. Y를 승산으로 바꿔줌 좌변의 범위는 [0, inf], 우변의 범위는 [-inf, inf] 3. Y 승산에 로그를 취해줌 좌변의 범위는..
-
다중선형회귀 - Multiple Linear Regression아가개발자/머신러닝 2020. 9. 28. 15:15
다중선형회귀 수치형(실수형) 설명 변수와 연속형 숫자로 이루어진 종속 변수 간의 관계를 선형으로 가정하여 회귀 계수를 추정하는 모델 → y=b0+b1x1+b2x2+...+bkxk b : 회귀 변수 x : 설명 변수 회귀 계수 결정 법 - Direct Solution 실제 값 Y와 예측 값 Y'의 오차제곱 합을 최소로 하는 값을 회귀 계수로 선정 최적의 계수를 회귀 계수에 대한 미분한 식을 0으로 놓고 풀어 해를 구함 → X, Y 데이터 만으로 회귀 계수를 구할 수 있음 - Numerical Search 경사하강법: 임의의 시작점을 잡아 해당 지점에서의 그래디언트(경사)를 구하고, 그래디언트의 반대 방향으로 조금씩 이동하는 과정을 여러 번 반복함 1. Batch Gradient Descent(GD) 파라미..
-
WiFi아가개발자/사물인터넷 2020. 9. 23. 20:10
데이터 전송을 하기 위해서는 사물인터넷 내부에 WiFi가 필요함. IEEE 802.11 요구사항 - 한 개의 MAC은 여러 개의 Physical layer에 연결 가능해야 한다. : Frequency Hopping Spread Spectrum (FHSS) : Direct Sequence Spread Spectrum (DSSS) : Infrared 적외선 : Orthogonal Frequency Division Multiplexing (OFDM) - 여러 개의 Network가 위치&채널이 겹치는 것이 가능해야 한다. - 간섭에 강인해야 한다. - 숨겨진 node를 다루는 매커니즘이 필요하다. - Time Bounded Service의 규정이 필요하다 . Architecture - 2 개의 모드 : ad h..
-
KNN classification - iris아가개발자/머신러닝 2020. 9. 18. 17:23
데이터셋 불러오기 # seaborn 라이브러리 사용 import seaborn as sns iris = sns.load_dataset('iris') X = iris.drop('species', axis = 1) y = iris['species'] #sklearn 라이브러리 사용 from sklearn.datasets import load_iris iris = load_iris() 더보기 manual: seaborn.pydata.org/generated/seaborn.load_dataset.html?highlight=load_dataset#seaborn.load_dataset seaborn.load_dataset — seaborn 0.11.0 documentation If True, try to load ..
-
K-최근접 이웃(KNN: K-Nearest Neighbors)아가개발자/머신러닝 2020. 9. 18. 16:39
KNN (K-Nearest Neighbors) : 주변 K개의 자료의 class로 분류하는 방식 x의 class를 점선 동그라미 범위 안의 K개의 class 분포를 보고 예측 파란 동그라미 3개, 초록 세모 2개 → x = 파란 동그라미 (투표 방식) KNN은 게으른 학습(lazy learner), 사례중심 학습(instance-based learning)이라고 불림, 예측 모델을 만들고 파라미터를 추정하는 방식이 아니기 때문 가중 합 방식 (Weighted voting) : 가까운 이웃의 정보에 가중치를 부여 오른쪽 그래프의 x의 예측 class는 파란 동그라미, 왼쪽 그래프의 x의 예측 class는 초록 세모 K값이 바뀌면 예측한 class 값이 달라질 수 있음 → 가중 합 방식 사용 KNN의 장단점..