-
선형회귀모델 4 결정계수 (Coefficient of Determination $R^2$)Study/머신러닝 2020. 3. 25. 18:09
### 결정계수 (Coefficient of Determination $R^2$)
$Y_i$: 실제 Y값
$hat{Y_i}$: 직선위에 있는 Y값
$\overline{Y}$ : x변수랑 상관없은 Y의 평균값
$SSE = \sum_{i=1}^{n} (Y_i - \hat{Y_i})^2$ : 실제 Y값과 직선위에 있는 Y값들의 차이의 제곱의 합
$SSR = \sum_{i=1}^{n} (\hat{Y_i} - \overline{Y})^2$ : 직선위에 있는 Y값과 Y의 평균값의 차이의 제곱의 합
$SST = \sum_{i=1}^{n} (Y_i - \overline{Y})^2$ : 실제 Y값과 Y의 평균값의 차이의 제곱의 합
$$SST = SSR + SSE$$
$$\frac{SSR}{SST} = 1$$ SSE가 0이 된다는 것인데 직선위에 모든 점들이 있다는 것이다. 즉 에러가 하나도 없기에 확정적인 관계라고 말할 수 있다.
$$\frac{SSR}{SST} = 0$$ SSR이 0이 되면 SST와 SSE가 동일해 지는데 Y평균을 이용했을 때에 비해서 x를 이용한 Y를 설명을 했을 때 아무런 설명을 못했다.
여기서 $\frac{SSR}{SST} = R^2$ 가 결정계수이다.
### 결정계수 ($R^2$)
$$R^2 = \frac{SSR}{SST} = 1 - \frac{SSE}{SST}$$
$R^2$는 0과 1 사이에 존재
$R^2 = 1$: 현재 가지고 있는 X변수로 Y를 100% 설명. 즉, 모든 관측치가 회귀직선 위에 있다
$R^2 = 0$: 현재 가지고 있는 X변수는 Y설명에 전혀 도움이 되지 않는다
사용하고 있는 X변수가 Y변수의 분산을 얼마나 줄였는지 즉 1이라면 100% 다 줄인 것이다.
단순히 Y의 평균값을 사용했을 때 대비 X 정보를 사용함으로써 얻는 성능향상 정도
사용하고 있는 X변수의 품질
### 수정 결정계수 (Adjuested $R^2$)
$R^2 = 1 - \frac{SSE}{SST}$
$R^2$는 다 좋은데 하나의 단점이 있는데 유의하지 않은 변수가 추가되어도 항상 증가 된다.그래서 나온게 수정 결정계수이다.
$$R^2_adj = 1 - [\frac{n - 1}{n - (p + 1}]\frac{SSE}{SST}$$
$R^2$는 유의하지 않은 변수가 추가되어도 항상 증가
수정 $R^2$는 앞에 특정 계수를 곱해 줌으로써 유의하지 않은 변수가 추가 될 경우 증가하지 않게 함
설명변수가 서로 다른 회귀모형의 설명력을 비교할 때 사용
$R^2$앞에 간단한 상수항을 곱해준 건데 의미를 보면 n은 관측치의 갯수고 p는 변수의 개수인데 p가 늘어나면 분모가 작아지게 되면 전체 분수는 커지게 된다. 1에서 큰 값을 빼주면 작아지기 때문에 $R^2$값은 더 이상 증가하지 않는다. 그런데 무조건 증가하지 않는게 아니라 Y변수에 유의미한 영향을 미치는 X변수가 오면 SSE값이 엄청 작아지기 때문에 상수항이 있을지라도 $R^2$는 증가하게 된다.
$$R^2_adj \le R^2$$
### 선형회귀모델에서의 분산분석
분산분석 : Analysis of Variance
분산 정보를 이용하여 분석
분산분석은 궁극적으로 가설검정을 행하는 용도로 사용됨
$SST = \sum_{i=1}^{n} (Y_i - \overline{Y})^2$ : Y의 총 변동량
$SSR = \sum_{i=1}^{n} (\hat{Y_i} - \overline{Y})^2$ : X변수에 의해 설명된 양
$SSE = \sum_{i=1}^{n} (Y_i - \hat{Y_i})^2$ : 에러에 의해 설명된 양
SST, SSR, SSE는 모두 분산이다!
이 세가지를 가지고 분석을 한다.
$\frac{SSR}{SSE}$
$\frac{SSR}{SSE} > 1$ X변수에 의해 설명된 양 > 에러에 의해 설명된 양 X변수가 Y에 유의미한 영향을 미침 X변수의 계수(기울기)가 0이 아님
$0 \le \frac{SSR}{SSE} \le 1$ X변수에 의해 설명된 양 < 에러의 의해 설명된 양 X변수가 Y설명에 영향을 끼치지 못함 X변수의 계수 (기울기)가 0이라고 할 수 있음
$\frac{SSR}{SSE}$이 값이 얼마나 커야 큰 값일까? 얼마나 1 보다 커야 유의미할까/ 보통 이런 경우에 분포를 알면 통계적으로 판단할 수 있으나 안타깝게도 직접적으로 분포를 정의할 수 없다. 하지만 SSR과 SSE가 분산이기 때문에 각각 카이제곱 분포(파라미터:자유도)를 따른다.
Let $Y_I$ be $\chi^2(v1)$ and $Y_2$ be $\chi^2(v2)$, define $F = \frac{Y_1/v_1}{Y_2/v_2}$
F has an F-distribution with $v_I$ degree of freedom in the numerator and $v_2$ degrees of freedom in the denominator, denoted as $F(v_1, v_2)$
두개의 확률 변수 Y_1, Y_2가 있을 때 카이제곱분포를 따른다. 확률변수 F는 첫번째 두번째의 비율이다. F는 자유도 v_1, v_2라는 파라미터를 가진다. F는 F 분포를 따르고 v_1, v_2는 상수이기 때문에 곱해주거나 나눠줘도 큰 문제가 없다. $\frac{SSR}{SSE}$는 간접적으로 비율의 분포가 F 분포를 따른다.
$$SSR ~ \chi^2(v_1 =1), SSE~\chi(v_2 = n-2)$$
$$F^* = \frac{SSR/1}{SSE/n-2} ~ F(1, n-2)$$
이걸 어디다 사용할 것이냐면 "기울기가 0인지 아닌지"를 구할 때 사용한다.
$$F^* = \frac{SSR/1}{SSE/n-2} = \frac{MSR}{MSE}$$
$$P-value = P(Y \ge F^*), where Y ~F(1, n-2)$$'Study > 머신러닝' 카테고리의 다른 글
선형회귀모델 3 구간추정, 검정 (0) 2020.03.25 선형회귀모델 2 파라미터 추정(최소제곱법) (1) 2020.03.24 선형회귀모델 1 (Linear Regression) (0) 2020.03.09