분류 전체보기
-
Generalized Extreme Studentized Deviate test(ESD) 이상치 탐지Study/통계 2020. 3. 13. 13:05
Generalized Extreme Studentized Deviate test는 일변량 데이터에서 하나 이상의 이상치를 탐지하는데 사용됩니다. Grubb's test의 한계는 특이치의 개수를 정확히 지정해야 한다는 것입니다. 만일에 특이치의 개수 k가 정확히 지정되지 않으면 결과가 왜곡될 수 있습니다. 그러나 Generalized ESD test는 의심되는 이상치 수의 상한을 지정하기만 하면 됩니다. 상한치 r이 주어지면 Generalized ESD test는 r번의 테스트를 수행합니다. 하나의 특이치에 대한 테스트, 두개의 특이치에 대한 테스트, 최대 r개의 특이치에 대한 테스트를 합니다. Generalized ESD test는 다음과 같은 가설을 정의합니다. Generalized ESD test의 ..
-
BOJ 9461번Study/BOJ 2020. 3. 13. 12:05
https://www.acmicpc.net/problem/9461 불러오는 중입니다... 피도반 수열의 새로운 삼각형의 한 변의 길이는 직전 삼각형의 변의 길이와 5번째 전 삼각형의 변의 길이의 합입니다. import sys def make_p_list(max_range, p_list): if max_range > 10: for i in range(max_range - 10): next_p = p_list[-1] + p_list[-5] p_list.append(next_p) else: pass return p_list def out(p_list, test_case_list): for test_case in test_case_list: print(p_list[test_case-1]) T = int(sys...
-
Grubb's test 이상치 탐지Study/통계 2020. 3. 12. 17:30
금융 데이터를 다루는 일을 하다보니 이상치 데이터를 거의 매번 만나게 됩니다. 보통의 경우 이상치 데이터는 변환해야할 대상이지만 금융쪽 도메인에선 이상치가 굉장히 유의미한 경우가 많습니다. 그리고 데이터 자체도 정규성을 따르지 않는 경우도 있기 때문에 이상치 추출에 대한 여러가지 방법을 시도하는 도중 정리하기 위해 글을 쓰게 되었습니다. Grubb's test라고 불리는 이 방법은 이상치를 탐지하는데 사용되는데 모집단이 정규분포임을 가정합니다. 즉 정규성 가정에 기반을 두고 있으며 테스트를 들어가기전에 정규 분포를 따르는지 확인해야 합니다. Grubb's test는 한 번에 하나의 이상치만 탐지합니다. 그래서 특이치가 감지되지 않을 때 까지 계속해서 반복해야합니다. 그러나 반복을 하다보면 샘플의 갯수가 ..
-
Median Absolute Deviation(MAD)Study/통계 2020. 3. 12. 15:24
https://ko.wikipedia.org/wiki/%EC%A4%91%EC%95%99%EA%B0%92_%EC%A0%88%EB%8C%80_%ED%8E%B8%EC%B0%A8 중앙값 절대 편차 - 위키백과, 우리 모두의 백과사전 위키백과, 우리 모두의 백과사전. 중앙값 절대 편차(median absolute deviation, MAD)는 평균 절대 편차(average absolute deviation)와 유사하지만 평균 대신 중앙값을 쓴다는 점이 다르다. 절대 편차(absolute deviation)의 일종이다. 구하는 공식은 아래와 같다. MAD = median ( | X i − median ( X ) | ) , {\displaystyle \operatorname ko.wikipedia.org 위키..
-
[ADsP 정리] 3.데이터 분석Study/자격증 2020. 3. 10. 12:56
R기초와 데이터 마트 R 패키지 사용하기 - R에서 패키지는 함수, 데이터, 코드, 문서 등을 묶은 것을 의미 - R은 오픈 소스 프로그램으로 다양한 기능이 패키지가 존재 - 패키지를 사용하는 데 필요한 함수 install().pakages(),library() - install().pakage("패키지 이름): vozlwlfmf ekdnsfhemgotj tjfclgksek. - library(패키지 이름) or library("패키지 이름"): 패키지를 로드하여 사용할 준비를 한다. R 연산자(산술, 할당, 비교, 논리) R 산술 연산자 - 산술 연산자의 우선순위: 괄호 -> 거듭제곱, 곱하기, 나누기 -> 더하기, 빼기 주의: 동일한 우선순위의 경우 왼쪽에서 오른쪽 순서를 가짐 연산자 설명 예 결과 ..
-
선형회귀모델 1 (Linear Regression)Study/머신러닝 2020. 3. 9. 18:15
선형회귀 모델은 수치예측과 범주예측에 쓰입니다. 수치예측이란 예측하고자 하는 대상이 연속형일때 그리고 범주예측은 예측하고자 하는 대상이 범주형일때 입니다. 선형회귀모델에 들어가기 전에 X변수(원인)과 Y변수(결과) 사이의 관계를 얘기할 때 크게 확정적 그리고 확률적 관계로 나뉩니다. 확정적 관계는 X변수로 Y를 100% 표현하는 것입니다. 즉 오차항이 없습니다. 이러한 경우의 예로 힘= f(질량, 가속도)가 있습니다. 확률적 관계는 X변수로 Y를 100% 표현할 수 없는 경우에 해당합니다. 오차항이 있으며 그 예로 포도주 가격을 예측하는 것을 들 수 있습니다. 보통의 경우 데이터 마이닝에선 확률적 관계를 다룹니다. 선형회귀모델은 출력변수 Y를 입력변수 X들의 선형결합으로 표현한 모델인데 여기서 선형 결합..
-
[ADsP 정리] 2.데이터의 분석 기획Study/자격증 2020. 2. 27. 12:07
데이터분석 기획의 이해 분석은 분석의 대상(what), 분석의 방법(how)에 따라서 4가지 구분 1. Optimization : 분석 대상 및 분석 방법을 이해하고 현 문제를 최적화의 형태로 수행 2. Solution : 분석 과제는 수행되고, 분석 방법을 알지 못하는 경우 솔루션을 찾는 방식으로 분석 과제 수행 3. Insight : 분석 대상이 불분명하고, 분석 방법을 알고 있는 경우 인사이트 도출 4. Discovery : 분석 대상, 방법을 모른다면 발견을 통하여 분석 대상 자체를 새롭게 도출 목표 시점별 분석기획방안 단기방안(과제 중심적인 접근방식) 중장기(장기적인 마스터플랜)구분 당면한 분석 주제의 해결 (과제 단위) 지속적 분석 문화 내재화 (마스터플랜 단위) Speed & Test Acc..