-
선형회귀모델 3 구간추정, 검정Study/머신러닝 2020. 3. 25. 18:08
선형회귀모델 파라미터 추론(구간추정, 검정)
Least square estimator(추정량): 샘플의 함수 (a function of the samples) 베타0과 베타1이 추정량이 된다.
추정량의 용도: 알려지지 않은 파라미터를 추정 여기서 알려지지 않은 파라미터는 베타0과 베타1이 된다.
추정량의 종류: 점추정, 구간추정
파라미터에 대한 점추정
단순 선형회귀모델에는 파라미터가 베타0, 베타1, 분산인 시그마^2 즉 3개가 있다.
베타0에 대한 점추정 식 : $\hat{\beta_0} = \bar{Y} - \hat{\beta_1}\bar{X}$
베타1에 대한 점추정 식 : $\hat{\beta_1} = \sum_{i=1}^{n} (X_i - \bar{X}) (Y_i - \bar{Y}) / \sum_{i=1}^{n} (X_i - \bar{X}) ^ 2$
시그마^2에 대한 점추정 식 : $\hat{\sigma^2} = (1/(n-2)) \sum_{i=1}^{n} e_i^2$ n은 샘플 수 e는 잔차
알려지지 않은 파라미터 3개에 대한 점추정량이 정의가 됐고 점추정량은 모두 샘플들의 함수의 형태도 정의가 된다. 이 식에 다가 데이터 값을 넣으면 하나의 값이 나오기 때문에 점추정이라고 한다.
최소제곱법으로 부터 구한 추정량은 성질이 있는데 추정량(estimater)을 만들면 이 estimater에 대한 성질을 파악해야 한다. 이게 효율적이고 좋은 추정량인지 파악할 수 있는 기준이 있다.
Gauss-Markov Theorem: Least square estimator is the best linear unbiased estimator(BLUE)
BLUE에는 크게 두가지 핵심 개념이 있다. 우리가 구한 추정량이 불편(편향되지 않은) 추정량이다. 우리가 구한 추정량이 다른 불편 추정량보다 작은 분산을 가지고 있다. 이 두가지가 만족이 되면 BLUE 즉 굉장히 좋은 점추정량이 된다. 최소제곱법으로부터 구한 베타0와 베타1이 BLUE에 해당하는 것을 가우스 마르코프가 증명했다.
1.unbiased estimator $E(\hat{\beta_0}) = \beta_0, E(\hat{\beta_1}) = \beta_1$
2.smallest variance estimator $V
기울기에 대한 가설검정
알려지지 않은 파라미터에 대한 가설을 세우고 이를 검정
일종오류 α하에서 기울기가 0인지 아닌지 검정
귀무가설 H0: β1 = 0 대립가설 H1: β1 !=0
P-value### 선형회귀모델 파라미터 추론(구간추정, 검정)
Least square estimator(추정량): 샘플의 함수 (a function of the samples) 베타0과 베타1이 추정량이 된다.
추정량의 용도: 알려지지 않은 파라미터를 추정 여기서 알려지지 않은 파라미터는 베타0과 베타1이 된다.
추정량의 종류: 점추정, 구간추정
파라미터에 대한 점추정
단순 선형회귀모델에는 파라미터가 베타0, 베타1, 분산인 시그마^2 즉 3개가 있다.
베타0에 대한 점추정 식 : $\hat{\beta_0} = \bar{Y} - \hat{\beta_1}\bar{X}$
베타1에 대한 점추정 식 : $\hat{\beta_1} = \sum_{i=1}^{n} (X_i - \bar{X}) (Y_i - \bar{Y}) / \sum_{i=1}^{n} (X_i - \bar{X}) ^ 2$
시그마^2에 대한 점추정 식 : $\hat{\sigma^2} = (1/(n-2)) \sum_{i=1}^{n} e_i^2$ n은 샘플 수 e는 잔차
알려지지 않은 파라미터 3개에 대한 점추정량이 정의가 됐고 점추정량은 모두 샘플들의 함수의 형태도 정의가 된다. 이 식에 다가 데이터 값을 넣으면 하나의 값이 나오기 때문에 점추정이라고 한다.
최소제곱법으로 부터 구한 추정량은 성질이 있는데 추정량(estimater)을 만들면 이 estimater에 대한 성질을 파악해야 한다. 이게 효율적이고 좋은 추정량인지 파악할 수 있는 기준이 있다.
Gauss-Markov Theorem: Least square estimator is the best linear unbiased estimator(BLUE)
BLUE에는 크게 두가지 핵심 개념이 있다. 우리가 구한 추정량이 불편(편향되지 않은) 추정량이다. 우리가 구한 추정량이 다른 불편 추정량보다 작은 분산을 가지고 있다. 이 두가지가 만족이 되면 BLUE 즉 굉장히 좋은 점추정량이 된다. 최소제곱법으로부터 구한 베타0와 베타1이 BLUE에 해당하는 것을 가우스 마르코프가 증명했다.
추정량에 대한 기댓값을 취하면 우리가 알려지지 않은 파라미터 값이 나오면 베타0, 베타1의 기댓값을 취하면 베타0, 베타1이다.
1.unbiased estimator $E(\hat{\beta_0}) = \beta_0, E(\hat{\beta_1}) = \beta_1$
다른 불편 추정량의 분산보다 작다.
2.smallest variance estimator $V(a\hat{\beta_0} \le V(b\hat(\theta)), V(a\hat{\beta_1}) \le V(v\hat{\theta})$
여시거 세타는 다른 불편추정량
점추정은 말 그대로 어떤 알려지지 않은 파라미터를 알고 싶을때 하나의 값으로 하나의 점으로 추정하는 것을 말한다.
구간추정은 하나의 점이 아니라 구간으로 추정하기 때문에 보다 유연한 정보가 제공될 수 있다.
어떤 파라미터 $\theta$가 주어졌을 때 $\theta$에 대한 구간추정의 기본 형태가 있는데 모든 파라미터에 다 해당된다.
크게 세가지 점추정량 값, 상수값, 정추정량에 대한 표준편차이다.
결국 구간 추정은 점추정량에 대해서 상수값을 곱한 표준편차만큼 빼고 더한 그런 구간으로 정의된다.
$$\hat{$\theta$} - 상수값 * \hat{\theta} \le $\theta$ \le \hat{$\theta$} + 상수값 * \hat{\theta}$$
$$\hat{\theta} : point estimator of \theta$$
### 기울기에 대한 신뢰구간
신뢰구간을 구하자는 것이 구간추정을 하는 것과 같다.
$\beta_1$에 대한 $100(1-\alpha)$% 신뢰구간, n=관측치 수
$$\hat{\beta_1} - t\alpha /2, n-2 * sd{\hat{\beta_1} \le \beta_1 \le \hat{\beta_1} + t\alpha / 2, n-2 * sd{\hat{\beta_1}$$
첫 번째 $\hat{\beta_1}$을 알아야 하는데 최소제곱법을 통해서 알 수 있다.
두 번째 상수값인 $t\alpha /2, n-2$ : 유의수준 $1-\alpha$하에서 자유도가 n-2인 t분포의 값 베타1이 t 분포를 따른다.
세 번째 점 추정량에 대한 표준편차 $sd{\hat{\beta_1} = \sqrt{\frac{\hat{\sigma^2}{\sum_{i=1}^n (X_i, -\overline{X)^2} : \hat{\beta_1}$의 표준편차 여기서 시그마 햇 제곱은 에러가 정규분포 (0, 시그마^2)를 따를때의 값이다.
### Y절편에 대한 신뢰구간
$\beta_0$에 대한 $100(1-\alpha)$% 신뢰구간, n=관측치 수
베타0에 대한 신뢰구간도 형태가 베타1과 같다. 보통 선형회귀모델에서 Y절편에 대한 신뢰구간은 아주 중요한 의미를 갖진 않는다.
### 기울기에 대한 가설검정
파라미터에 대한 추론은 크게 추정과 가설검정이 있다. 선형회귀모델에 대한 가설검정은 기울기에 대한 가설검정이 특히 중요하다.
알려지지 않은 파리미터에 대한 가설을 세우고 이를 검정
일종오류 $\alpha$ 하에서 기울기가 0인지 아닌지 검정
$$H_0:\beta_1 = 0 $$ vs $$H_1:\beta_1 != 0 $$
가설 검정에는 귀무가설과 대립가설이 있다.
귀무가설에는 베타1이 0이다. 대립가설은 베타1이 0이 아니다. 이게 괴장히 중요한 가설인데 기울기가 0이면 x, y가 관계가 없기 때문이다.
가설검정에서는 가설을 세우고 검정통계량이라는 것을 계산하게 된다.
$$t^{*} = \frac{\hat{\beta_1} - 0}{sd{\hat{\beta_1}}$$
검정통계량은 귀무가설이 맞다는 가정하에 beta_0이 0이고 베타0햇 값의 차이를 보고 sd로 스케일링을 해주면서 차이가 굉장히 크다면 귀무가설을 기각하게 된다.
IF |$t^{*}$ | > $t_{a/2, n-2}$, we reject $H_0$
위와 같은 방법도 있으며 P-value를 이용한 방법이 있다.
P-value = 2*P(T>[t^*]) where T~t(n-2) 여기서 P는 0.05 또는 0.01의 값을 갖는 확률이다. 결국 T는 t 분포를 따른다. 그래서 검정통계량값이 큰 값이 5가 나왔다면 t분포에서 5보다 클 확률을 구한다.'Study > 머신러닝' 카테고리의 다른 글
선형회귀모델 4 결정계수 (Coefficient of Determination $R^2$) (0) 2020.03.25 선형회귀모델 2 파라미터 추정(최소제곱법) (1) 2020.03.24 선형회귀모델 1 (Linear Regression) (0) 2020.03.09