Processing math: 100%

ABOUT ME

갈 길이 멀다

Today
Yesterday
Total
  • 선형회귀모델 4 결정계수 (Coefficient of Determination R2)
    Study/머신러닝 2020. 3. 25. 18:09

    ### 결정계수 (Coefficient of Determination R2)

    Yi: 실제 Y값

    hatYi: 직선위에 있는 Y값

    ¯Y : x변수랑 상관없은 Y의 평균값

    SSE=ni=1(Yi^Yi)2 : 실제 Y값과 직선위에 있는 Y값들의 차이의 제곱의 합

    SSR=ni=1(^Yi¯Y)2 : 직선위에 있는 Y값과  Y의 평균값의 차이의 제곱의 합

    SST=ni=1(Yi¯Y)2 : 실제 Y값과  Y의 평균값의 차이의 제곱의 합

    SST=SSR+SSE

    SSRSST=1 SSE가 0이 된다는 것인데 직선위에 모든 점들이 있다는 것이다. 즉 에러가 하나도 없기에 확정적인 관계라고 말할 수 있다.

    SSRSST=0 SSR이 0이 되면 SST와 SSE가 동일해 지는데 Y평균을 이용했을 때에 비해서 x를 이용한 Y를 설명을 했을 때 아무런 설명을 못했다. 

    여기서 SSRSST=R2 가 결정계수이다. 

    ### 결정계수 (R2)

    R2=SSRSST=1SSESST

    R2는 0과 1 사이에 존재

    R2=1: 현재 가지고 있는 X변수로 Y를 100% 설명. 즉, 모든 관측치가 회귀직선 위에 있다

    R2=0: 현재 가지고 있는 X변수는 Y설명에 전혀 도움이 되지 않는다

    사용하고 있는 X변수가 Y변수의 분산을 얼마나 줄였는지 즉 1이라면 100% 다 줄인 것이다.

    단순히 Y의 평균값을 사용했을 때 대비 X 정보를 사용함으로써 얻는 성능향상 정도

    사용하고 있는 X변수의 품질

    ### 수정 결정계수 (Adjuested R2)

    R2=1SSESST

    R2는 다 좋은데 하나의 단점이 있는데 유의하지 않은 변수가 추가되어도 항상 증가 된다.그래서 나온게 수정 결정계수이다. 

    R2adj=1[n1n(p+1]SSESST

    R2는 유의하지 않은 변수가 추가되어도 항상 증가

    수정 R2는 앞에 특정 계수를 곱해 줌으로써 유의하지 않은 변수가 추가 될 경우 증가하지 않게 함

    설명변수가 서로 다른 회귀모형의 설명력을 비교할 때 사용

    R2앞에 간단한 상수항을 곱해준 건데 의미를 보면 n은 관측치의 갯수고 p는 변수의 개수인데 p가 늘어나면 분모가 작아지게 되면 전체 분수는 커지게 된다. 1에서 큰 값을 빼주면 작아지기 때문에 R2값은 더 이상 증가하지 않는다. 그런데 무조건 증가하지 않는게 아니라 Y변수에 유의미한 영향을 미치는 X변수가 오면 SSE값이 엄청 작아지기 때문에 상수항이 있을지라도 R2는 증가하게 된다.

    R2adjR2

    ### 선형회귀모델에서의 분산분석

    분산분석 : Analysis of Variance

    분산 정보를 이용하여 분석

    분산분석은 궁극적으로 가설검정을 행하는 용도로 사용됨

    SST=ni=1(Yi¯Y)2 : Y의 총 변동량

    SSR=ni=1(^Yi¯Y)2 : X변수에 의해 설명된 양

    SSE=ni=1(Yi^Yi)2 : 에러에 의해 설명된 양

    SST, SSR, SSE는 모두 분산이다!

    이 세가지를 가지고 분석을 한다.

    SSRSSE

    SSRSSE>1 X변수에 의해 설명된 양 > 에러에 의해 설명된 양 X변수가 Y에 유의미한 영향을 미침 X변수의 계수(기울기)가 0이 아님

    0SSRSSE1 X변수에 의해 설명된 양 < 에러의 의해 설명된 양 X변수가 Y설명에 영향을 끼치지 못함 X변수의 계수 (기울기)가 0이라고 할 수 있음

    SSRSSE이 값이 얼마나 커야 큰 값일까? 얼마나 1 보다 커야 유의미할까/ 보통 이런 경우에 분포를 알면 통계적으로 판단할 수 있으나 안타깝게도 직접적으로 분포를 정의할 수 없다. 하지만 SSR과 SSE가 분산이기 때문에 각각 카이제곱 분포(파라미터:자유도)를 따른다.

    Let YI be χ2(v1) and Y2 be χ2(v2), define F=Y1/v1Y2/v2

    F has an F-distribution with vI degree of freedom in the numerator and v2 degrees of freedom in the denominator, denoted as F(v1,v2)

    두개의 확률 변수 Y_1, Y_2가 있을 때 카이제곱분포를 따른다. 확률변수 F는 첫번째 두번째의 비율이다. F는 자유도 v_1, v_2라는 파라미터를 가진다. F는 F 분포를 따르고  v_1, v_2는 상수이기 때문에 곱해주거나 나눠줘도 큰 문제가 없다. SSRSSE는 간접적으로 비율의 분포가 F 분포를 따른다. 

    SSR χ2(v1=1),SSE χ(v2=n2)

    F=SSR/1SSE/n2 F(1,n2)

    이걸 어디다 사용할 것이냐면 "기울기가 0인지 아닌지"를 구할 때 사용한다.

    F=SSR/1SSE/n2=MSRMSE

    Pvalue=P(YF),whereY F(1,n2)

    댓글

Designed by Tistory.