ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 선형회귀모델 4 결정계수 (Coefficient of Determination $R^2$)
    Study/머신러닝 2020. 3. 25. 18:09

    ### 결정계수 (Coefficient of Determination $R^2$)

    $Y_i$: 실제 Y값

    $hat{Y_i}$: 직선위에 있는 Y값

    $\overline{Y}$ : x변수랑 상관없은 Y의 평균값

    $SSE = \sum_{i=1}^{n} (Y_i - \hat{Y_i})^2$ : 실제 Y값과 직선위에 있는 Y값들의 차이의 제곱의 합

    $SSR = \sum_{i=1}^{n} (\hat{Y_i} - \overline{Y})^2$ : 직선위에 있는 Y값과  Y의 평균값의 차이의 제곱의 합

    $SST = \sum_{i=1}^{n} (Y_i - \overline{Y})^2$ : 실제 Y값과  Y의 평균값의 차이의 제곱의 합

    $$SST = SSR + SSE$$

    $$\frac{SSR}{SST} = 1$$ SSE가 0이 된다는 것인데 직선위에 모든 점들이 있다는 것이다. 즉 에러가 하나도 없기에 확정적인 관계라고 말할 수 있다.

    $$\frac{SSR}{SST} = 0$$ SSR이 0이 되면 SST와 SSE가 동일해 지는데 Y평균을 이용했을 때에 비해서 x를 이용한 Y를 설명을 했을 때 아무런 설명을 못했다. 

    여기서 $\frac{SSR}{SST} = R^2$ 가 결정계수이다. 

    ### 결정계수 ($R^2$)

    $$R^2 = \frac{SSR}{SST} = 1 - \frac{SSE}{SST}$$

    $R^2$는 0과 1 사이에 존재

    $R^2 = 1$: 현재 가지고 있는 X변수로 Y를 100% 설명. 즉, 모든 관측치가 회귀직선 위에 있다

    $R^2 = 0$: 현재 가지고 있는 X변수는 Y설명에 전혀 도움이 되지 않는다

    사용하고 있는 X변수가 Y변수의 분산을 얼마나 줄였는지 즉 1이라면 100% 다 줄인 것이다.

    단순히 Y의 평균값을 사용했을 때 대비 X 정보를 사용함으로써 얻는 성능향상 정도

    사용하고 있는 X변수의 품질

    ### 수정 결정계수 (Adjuested $R^2$)

    $R^2 = 1 - \frac{SSE}{SST}$

    $R^2$는 다 좋은데 하나의 단점이 있는데 유의하지 않은 변수가 추가되어도 항상 증가 된다.그래서 나온게 수정 결정계수이다. 

    $$R^2_adj = 1 - [\frac{n - 1}{n - (p + 1}]\frac{SSE}{SST}$$

    $R^2$는 유의하지 않은 변수가 추가되어도 항상 증가

    수정 $R^2$는 앞에 특정 계수를 곱해 줌으로써 유의하지 않은 변수가 추가 될 경우 증가하지 않게 함

    설명변수가 서로 다른 회귀모형의 설명력을 비교할 때 사용

    $R^2$앞에 간단한 상수항을 곱해준 건데 의미를 보면 n은 관측치의 갯수고 p는 변수의 개수인데 p가 늘어나면 분모가 작아지게 되면 전체 분수는 커지게 된다. 1에서 큰 값을 빼주면 작아지기 때문에 $R^2$값은 더 이상 증가하지 않는다. 그런데 무조건 증가하지 않는게 아니라 Y변수에 유의미한 영향을 미치는 X변수가 오면 SSE값이 엄청 작아지기 때문에 상수항이 있을지라도 $R^2$는 증가하게 된다.

    $$R^2_adj \le R^2$$

    ### 선형회귀모델에서의 분산분석

    분산분석 : Analysis of Variance

    분산 정보를 이용하여 분석

    분산분석은 궁극적으로 가설검정을 행하는 용도로 사용됨

    $SST = \sum_{i=1}^{n} (Y_i - \overline{Y})^2$ : Y의 총 변동량

    $SSR = \sum_{i=1}^{n} (\hat{Y_i} - \overline{Y})^2$ : X변수에 의해 설명된 양

    $SSE = \sum_{i=1}^{n} (Y_i - \hat{Y_i})^2$ : 에러에 의해 설명된 양

    SST, SSR, SSE는 모두 분산이다!

    이 세가지를 가지고 분석을 한다.

    $\frac{SSR}{SSE}$

    $\frac{SSR}{SSE} > 1$ X변수에 의해 설명된 양 > 에러에 의해 설명된 양 X변수가 Y에 유의미한 영향을 미침 X변수의 계수(기울기)가 0이 아님

    $0 \le \frac{SSR}{SSE} \le 1$ X변수에 의해 설명된 양 < 에러의 의해 설명된 양 X변수가 Y설명에 영향을 끼치지 못함 X변수의 계수 (기울기)가 0이라고 할 수 있음

    $\frac{SSR}{SSE}$이 값이 얼마나 커야 큰 값일까? 얼마나 1 보다 커야 유의미할까/ 보통 이런 경우에 분포를 알면 통계적으로 판단할 수 있으나 안타깝게도 직접적으로 분포를 정의할 수 없다. 하지만 SSR과 SSE가 분산이기 때문에 각각 카이제곱 분포(파라미터:자유도)를 따른다.

    Let $Y_I$ be $\chi^2(v1)$ and $Y_2$ be $\chi^2(v2)$, define $F = \frac{Y_1/v_1}{Y_2/v_2}$

    F has an F-distribution with $v_I$ degree of freedom in the numerator and $v_2$ degrees of freedom in the denominator, denoted as $F(v_1, v_2)$

    두개의 확률 변수 Y_1, Y_2가 있을 때 카이제곱분포를 따른다. 확률변수 F는 첫번째 두번째의 비율이다. F는 자유도 v_1, v_2라는 파라미터를 가진다. F는 F 분포를 따르고  v_1, v_2는 상수이기 때문에 곱해주거나 나눠줘도 큰 문제가 없다. $\frac{SSR}{SSE}$는 간접적으로 비율의 분포가 F 분포를 따른다. 

    $$SSR ~ \chi^2(v_1 =1), SSE~\chi(v_2 = n-2)$$

    $$F^* = \frac{SSR/1}{SSE/n-2} ~ F(1, n-2)$$

    이걸 어디다 사용할 것이냐면 "기울기가 0인지 아닌지"를 구할 때 사용한다.

    $$F^* = \frac{SSR/1}{SSE/n-2} = \frac{MSR}{MSE}$$

    $$P-value = P(Y \ge F^*), where Y ~F(1, n-2)$$

    댓글

Designed by Tistory.