Study/머신러닝
-
선형회귀모델 4 결정계수 (Coefficient of Determination $R^2$)Study/머신러닝 2020. 3. 25. 18:09
### 결정계수 (Coefficient of Determination $R^2$) $Y_i$: 실제 Y값 $hat{Y_i}$: 직선위에 있는 Y값 $\overline{Y}$ : x변수랑 상관없은 Y의 평균값 $SSE = \sum_{i=1}^{n} (Y_i - \hat{Y_i})^2$ : 실제 Y값과 직선위에 있는 Y값들의 차이의 제곱의 합 $SSR = \sum_{i=1}^{n} (\hat{Y_i} - \overline{Y})^2$ : 직선위에 있는 Y값과 Y의 평균값의 차이의 제곱의 합 $SST = \sum_{i=1}^{n} (Y_i - \overline{Y})^2$ : 실제 Y값과 Y의 평균값의 차이의 제곱의 합 $$SST = SSR + SSE$$ $$\frac{SSR}{SST} = 1$$ SSE가 0..
-
선형회귀모델 3 구간추정, 검정Study/머신러닝 2020. 3. 25. 18:08
선형회귀모델 파라미터 추론(구간추정, 검정) Least square estimator(추정량): 샘플의 함수 (a function of the samples) 베타0과 베타1이 추정량이 된다. 추정량의 용도: 알려지지 않은 파라미터를 추정 여기서 알려지지 않은 파라미터는 베타0과 베타1이 된다. 추정량의 종류: 점추정, 구간추정 파라미터에 대한 점추정 단순 선형회귀모델에는 파라미터가 베타0, 베타1, 분산인 시그마^2 즉 3개가 있다. 베타0에 대한 점추정 식 : $\hat{\beta_0} = \bar{Y} - \hat{\beta_1}\bar{X}$ 베타1에 대한 점추정 식 : $\hat{\beta_1} = \sum_{i=1}^{n} (X_i - \bar{X}) (Y_i - \bar{Y}) / \sum_..
-
선형회귀모델 2 파라미터 추정(최소제곱법)Study/머신러닝 2020. 3. 24. 19:36
파라미터 추정 실제 Y값과 예측값간의 차이가 d라고 할 때 $d_1 + d_2+ d_3+ ... + d_n = 0$이다. 왜냐하면 어떤 점은 실제점보다 크고 어떤 점은 작기 때문에 서로 상쇄가 된다. 실제값과의 차이가 중요하기 때문에 제곱을 취하여 minus effect를 없애준다. $d^2_1 +d^2_2 + d^2_3 + ... + d^2_n >=0$ 하나의 점 d1에 대해서 설명을 하자면 실제 Y값과 직선위의 Y값과의 차이다. $$d_1 = Y_1 -E(Y_1) = Y_1 - (β_0 + β_1*X_1)$$ $$\sum_{i=1}^{n} d^2_i = \sum_{i=1}^{n} \{Y_i - (\beta_0 + \beta_1 X_i)\}^2$$ $$\min_{\beta_0, \beta_1} \sum..
-
선형회귀모델 1 (Linear Regression)Study/머신러닝 2020. 3. 9. 18:15
선형회귀 모델은 수치예측과 범주예측에 쓰입니다. 수치예측이란 예측하고자 하는 대상이 연속형일때 그리고 범주예측은 예측하고자 하는 대상이 범주형일때 입니다. 선형회귀모델에 들어가기 전에 X변수(원인)과 Y변수(결과) 사이의 관계를 얘기할 때 크게 확정적 그리고 확률적 관계로 나뉩니다. 확정적 관계는 X변수로 Y를 100% 표현하는 것입니다. 즉 오차항이 없습니다. 이러한 경우의 예로 힘= f(질량, 가속도)가 있습니다. 확률적 관계는 X변수로 Y를 100% 표현할 수 없는 경우에 해당합니다. 오차항이 있으며 그 예로 포도주 가격을 예측하는 것을 들 수 있습니다. 보통의 경우 데이터 마이닝에선 확률적 관계를 다룹니다. 선형회귀모델은 출력변수 Y를 입력변수 X들의 선형결합으로 표현한 모델인데 여기서 선형 결합..