-
선형회귀모델 1 (Linear Regression)Study/머신러닝 2020. 3. 9. 18:15
선형회귀 모델은 수치예측과 범주예측에 쓰입니다.
수치예측이란 예측하고자 하는 대상이 연속형일때 그리고 범주예측은 예측하고자 하는 대상이 범주형일때 입니다.
선형회귀모델에 들어가기 전에
X변수(원인)과 Y변수(결과) 사이의 관계를 얘기할 때 크게 확정적 그리고 확률적 관계로 나뉩니다.
확정적 관계는 X변수로 Y를 100% 표현하는 것입니다. 즉 오차항이 없습니다. 이러한 경우의 예로 힘= f(질량, 가속도)가 있습니다.
확률적 관계는 X변수로 Y를 100% 표현할 수 없는 경우에 해당합니다. 오차항이 있으며 그 예로 포도주 가격을 예측하는 것을 들 수 있습니다. 보통의 경우 데이터 마이닝에선 확률적 관계를 다룹니다.
선형회귀모델은 출력변수 Y를 입력변수 X들의 선형결합으로 표현한 모델인데 여기서 선형 결합이란 변수들을 (상수 배와) 더하기 빼기를 통해 결합 형태를 말합니다. Y = β0 + β1*X1 + β2*X2+ ... + βp*Xp
X변수 한개가 Y를 표현하는 경우는 직선 식이 됩니다.
선형회귀모델링 목적은 X변수와 Y변수 사이의 관계를 수치로 설명 그리고 미래의 반응변수 (Y) 값을 예측하는 것입니다.
선형회귀모델은 4가지로 나뉠 수 있는데
단순 선형 다중 선형 단순 비선형 다중 비선형 으로 나뉩니다.
선형회귀 모델은 X로 설명할 수 있는 부분과 X로 설명할 수 없는 부분 ε으로 구성이 되어있는데
Y= X로 설명할 수 있는 부분 + 그렇지 못한 부분(ε) 와 같이 표현할 수 있습니다.여기서 선형회귀모델을 구축하기 전에 몇가지 가정이 있는데 이 가정이 성립되지 않으면 모델의 신빙성이 떨어지게 됩니다. 어떠한 가정이냐면
첫번째는 오차항(ε)이 정규분포를 따라야 한다.
두번째는 오차항(ε)의 평균이 0이고 오차항의 분산은 구하면 σ^2이다.확률오차 가정: εi ~ 정규분포 E(εi) = 0 V(εi) = σ^2 for all i.
εi ~ N(0, σ^2), i=1,2, ..., n
이 가정을 이용해서 Y에 대한 확률분포를 설명할 수 있습니다.
Yi = Yi = β0 + β1*Xi + ε E(Yi) = ? V(Yi) = ?
E(Yi) = E(β0 + β1*Xi) + E(ε) = β0 + β1*Xi
V(Yi) = V(β0 + β1*Xi) + V(ε) = σ^2
Yi ~ N(β0 + β1*Xi, σ^2), i = 1, 2, ..., n
오차항이 정규분포를 따르고 있기 때문에 Y도 정규분포를 따른다고 볼 수 있습니다.
따라서 선형회귀 모델은 '입력변수(X)'와 '출력변수(Y) 평균'과의 관계를 설명하는 선형식 찾기로 볼 수 있습니다.
결국 선형회귀식에서 β0와 β1의 파라미터(Parameter)를 찾는 것입니다.(파라미터 추정) 가지고 있는 데이터 X와 Y로 함수식을 찾는 것입니다.
'Study > 머신러닝' 카테고리의 다른 글
선형회귀모델 4 결정계수 (Coefficient of Determination $R^2$) (0) 2020.03.25 선형회귀모델 3 구간추정, 검정 (0) 2020.03.25 선형회귀모델 2 파라미터 추정(최소제곱법) (1) 2020.03.24