ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 선형회귀모델 1 (Linear Regression)
    Study/머신러닝 2020. 3. 9. 18:15

    선형회귀 모델은 수치예측과 범주예측에 쓰입니다.

    수치예측이란 예측하고자 하는 대상이 연속형일때 그리고 범주예측은 예측하고자 하는 대상이 범주형일때 입니다.

     

    선형회귀모델에 들어가기 전에

    X변수(원인)과 Y변수(결과) 사이의 관계를 얘기할 때 크게 확정적 그리고 확률적 관계로 나뉩니다.

     

    확정적 관계는 X변수로 Y를 100% 표현하는 것입니다. 즉 오차항이 없습니다. 이러한 경우의 예로 힘= f(질량, 가속도)가 있습니다. 

    확률적 관계는 X변수로 Y를 100% 표현할 수 없는 경우에 해당합니다. 오차항이 있으며 그 예로 포도주 가격을 예측하는 것을 들 수 있습니다. 보통의 경우 데이터 마이닝에선 확률적 관계를 다룹니다.

     

    선형회귀모델은 출력변수 Y를 입력변수 X들의 선형결합으로 표현한 모델인데 여기서 선형 결합이란 변수들을 (상수 배와) 더하기 빼기를 통해 결합 형태를 말합니다. Y = β0 + β1*X1 + β2*X2+ ... + βp*Xp

    X변수 한개가 Y를 표현하는 경우는 직선 식이 됩니다. 

     

    선형회귀모델링 목적은 X변수와 Y변수 사이의 관계를 수치로 설명 그리고 미래의 반응변수 (Y) 값을 예측하는 것입니다. 

     

    선형회귀모델은 4가지로 나뉠 수 있는데

    단순 선형 다중 선형
    단순 비선형  다중 비선형

      으로 나뉩니다. 

     

    선형회귀 모델은 X로 설명할 수 있는 부분과 X로 설명할 수 없는 부분 ε으로 구성이 되어있는데
    Y= X로 설명할 수 있는 부분 + 그렇지 못한 부분(ε) 와 같이 표현할 수 있습니다.

     

    여기서 선형회귀모델을 구축하기 전에 몇가지 가정이 있는데 이 가정이 성립되지 않으면 모델의 신빙성이 떨어지게 됩니다. 어떠한 가정이냐면

     

    첫번째는 오차항(ε)이 정규분포를 따라야 한다.
    두번째는 오차항(ε)의 평균이 0이고 오차항의 분산은 구하면 σ^2이다.

     

    확률오차 가정: εi ~ 정규분포 E(εi) = 0 V(εi) = σ^2 for all i.

    εi ~ N(0, σ^2), i=1,2, ..., n

     

    이 가정을 이용해서 Y에 대한 확률분포를 설명할 수 있습니다.

    Yi = Yi = β0 + β1*Xi + ε            E(Yi) = ?         V(Yi) = ?

     

    E(Yi) = E(β0 + β1*Xi) + E(ε) = β0 + β1*Xi

    V(Yi) = V(β0 + β1*Xi) + V(ε) = σ^2 

     

    Yi ~ N(β0 + β1*Xi, σ^2), i = 1, 2, ..., n

    오차항이 정규분포를 따르고 있기 때문에 Y도 정규분포를 따른다고 볼 수 있습니다.

    따라서 선형회귀 모델은 '입력변수(X)'와 '출력변수(Y) 평균'과의 관계를 설명하는 선형식 찾기로 볼 수 있습니다.

     

    결국 선형회귀식에서 β0와 β1의 파라미터(Parameter)를 찾는 것입니다.(파라미터 추정)  가지고 있는 데이터 X와 Y로 함수식을 찾는 것입니다. 

     

     

    댓글

Designed by Tistory.