Study/통계
-
머신러닝을 위한 Probability and Distribution 알아보기Study/통계 2020. 5. 29. 19:56
Probability 확률이라는 하는 것이 결국 MAP, MLE를 통해 알아본 근간이기 때문에 확률에 대해서 알아 볼 필요가 있습니다. $\Omega$라는 세상의 모든 사건들 중에 $E_1$이라는 사건과 $E_2$라는 사건이 발생한다고 가정을 한다면 이렇게 $E_1$과 $E_2$가 발생할 수 있는 확률이라는 것이 무엇인지 정의 해보는 것 입니다. 그것을 다음과 같이 정의해보겠습니다. $P(E) \in R $ 함수 모양을 하고 있는데 함수의 인자로 E(Event)가 들어가는 것 입니다. 함수에 E를 넣었더니 그 결과값은 R이라고 하는 continuous value가 나오고 그 값은 $P(E) \geq 0 $ 이라는 것 입니다. 그리고 또 다른 제약 조건이 있는데 $\Omega$라는 이 세상의 삼라만상 모든..
-
MLE(Maxinum Likelihood Estimation)에 대한 이해Study/통계 2020. 5. 28. 19:09
위키피디아에 MLE의 정의를 보면 '어떤 확률변수에서표집한 값들을 토대로 그 확률변수의모수를 구하는 방법, 어떤 모수가 주어졌을 때, 원하는 값들이 나올가능도를 최대로 만드는 모수를 선택하는 방법'이라 합니다. 어느정도 이해한 지금의 상황에선 위의 뜻이 좋은 설명이라고 생각하지만 처음 MLE를 접했을 때 잘 이해되지 않는 부분이 있었습니다. 이해를 위해 나름대로 기록한 내용을 적어 보려고 합니다. Thumbtack Question 압정은 동전과를 모양이 다르기 때문에 쉽게 50:50 확률이라고 보기 힘듭니다. 실제로 압정을 던져서 앞이 3번 뒤가 2번 나왔으니 3/5, 2/5의 확률이라고 대답하기엔 부족한 점이 있습니다. Binomial Distribution Binomial Distribution은 이..
-
MAP - Maximum a Posteriori 최대 사후 확률Study/통계 2020. 5. 7. 12:06
MLE(Maximum Likelihood Estimation)는 주어진 관측결과의 발생 가능성을 가장 높게 만들어 주는 모수를 찾아냈습니다. MAP는 MLE와 전혀 다른 개념을 가지고 있는데 MAP는 주어진 관측결과와 '사전지식(사전확률)'을 결합해서 최적의 모수를 찾아내는 방법입니다. 어떤 모수 $\theta$의 사전 확률 분포가 $p(\theta)$로 주어져 있고, 그 모수에 기반한 조건부 확률분포 $f(x|\theta)$와 그 분포에서 수집된 값 $x$가 주어져 있습니다. 이떄 모수의 사후 확률분포는 베이즈 정리에 의해 다음과 같이 계산할 수 있습니다. 여기서 x가 주어져 있기 때문에 분모는 $\theta$에 대해 상수가 됩니다. 여기에서 최대 사후 확률 모수는 다음과 같이 정의됩니다. 최대 사후 ..
-
Generalized Extreme Studentized Deviate test(ESD) 이상치 탐지Study/통계 2020. 3. 13. 13:05
Generalized Extreme Studentized Deviate test는 일변량 데이터에서 하나 이상의 이상치를 탐지하는데 사용됩니다. Grubb's test의 한계는 특이치의 개수를 정확히 지정해야 한다는 것입니다. 만일에 특이치의 개수 k가 정확히 지정되지 않으면 결과가 왜곡될 수 있습니다. 그러나 Generalized ESD test는 의심되는 이상치 수의 상한을 지정하기만 하면 됩니다. 상한치 r이 주어지면 Generalized ESD test는 r번의 테스트를 수행합니다. 하나의 특이치에 대한 테스트, 두개의 특이치에 대한 테스트, 최대 r개의 특이치에 대한 테스트를 합니다. Generalized ESD test는 다음과 같은 가설을 정의합니다. Generalized ESD test의 ..
-
Grubb's test 이상치 탐지Study/통계 2020. 3. 12. 17:30
금융 데이터를 다루는 일을 하다보니 이상치 데이터를 거의 매번 만나게 됩니다. 보통의 경우 이상치 데이터는 변환해야할 대상이지만 금융쪽 도메인에선 이상치가 굉장히 유의미한 경우가 많습니다. 그리고 데이터 자체도 정규성을 따르지 않는 경우도 있기 때문에 이상치 추출에 대한 여러가지 방법을 시도하는 도중 정리하기 위해 글을 쓰게 되었습니다. Grubb's test라고 불리는 이 방법은 이상치를 탐지하는데 사용되는데 모집단이 정규분포임을 가정합니다. 즉 정규성 가정에 기반을 두고 있으며 테스트를 들어가기전에 정규 분포를 따르는지 확인해야 합니다. Grubb's test는 한 번에 하나의 이상치만 탐지합니다. 그래서 특이치가 감지되지 않을 때 까지 계속해서 반복해야합니다. 그러나 반복을 하다보면 샘플의 갯수가 ..
-
Median Absolute Deviation(MAD)Study/통계 2020. 3. 12. 15:24
https://ko.wikipedia.org/wiki/%EC%A4%91%EC%95%99%EA%B0%92_%EC%A0%88%EB%8C%80_%ED%8E%B8%EC%B0%A8 중앙값 절대 편차 - 위키백과, 우리 모두의 백과사전 위키백과, 우리 모두의 백과사전. 중앙값 절대 편차(median absolute deviation, MAD)는 평균 절대 편차(average absolute deviation)와 유사하지만 평균 대신 중앙값을 쓴다는 점이 다르다. 절대 편차(absolute deviation)의 일종이다. 구하는 공식은 아래와 같다. MAD = median ( | X i − median ( X ) | ) , {\displaystyle \operatorname ko.wikipedia.org 위키..