ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [ADsP 정리] 2.데이터의 분석 기획
    Study/자격증 2020. 2. 27. 12:07

    데이터분석 기획의 이해

    분석은 분석의 대상(what), 분석의 방법(how)에 따라서 4가지 구분

    1. Optimization : 분석 대상 및 분석 방법을 이해하고 현 문제를 최적화의 형태로 수행

    2. Solution : 분석 과제는 수행되고, 분석 방법을 알지 못하는 경우 솔루션을 찾는 방식으로 분석 과제 수행

    3. Insight : 분석 대상이 불분명하고, 분석 방법을 알고 있는 경우 인사이트 도출

    4. Discovery : 분석 대상, 방법을 모른다면 발견을 통하여 분석 대상 자체를 새롭게 도출

     

    목표 시점별 분석기획방안 단기방안(과제 중심적인 접근방식) 중장기(장기적인 마스터플랜)구분

    당면한 분석 주제의 해결

    (과제 단위)

     

    지속적 분석 문화 내재화

    (마스터플랜 단위)

    Speed & Test <1차 목표> Accuracy & Deploy
    Quick-Win <과제의 유형> Long Term View
    Problem Solving <접근 방식> Problem Definition

    분석 기획시 고려사항(3가치)

    1. 가용한 데이터(Available Data)

    분석을 위한 데이터의 확보가 필수적임. 데이터 유형에 따라서 적용 가능한 솔루션 및 분석 방법이 다르기 때문에 유형에 대한 분석이 선행적으로 이루어져야 함. 예) 정형 데이터, 비정형 데이터, 반정형 데이터

    2. 적절한 유스케이스(Proper Use-Case) 탐색

    유사분석 시나리오 및 솔루션이 있다면 이를 최대한 활용하는 것이 중요함

    3. 장애요소들에 대한 사전 계획 수립이 필요(Low Barrier of Execution)

    정확도를 올리기 위해서는 기간과 투입 리소스가 늘어나게 되는데 이것은 비용 상승으로 이어질 수 있으므로 많은 사전 고려가 필요함. 일회성 분석으로 그치지 않고 조직의 역량을 내재화하기 위해서는 충분하고 계속적인 교육 및 활용방안 등의 변화관리(Change Management)가 고려되어야 함

     

    데이터 유형 3가지

    정형 데이터 예) ERP, CRM, Transaction data, Demand Forcast

    비정형 데이터 예)e-mail, 소셜미디어, blog and news

    반정형 데이터 예) machine data

     

    분석 방법론의 모델 3가지

    1. 폭포수 모델 -> 단계를 순차적으로 진행하는 방법으로 이전단곅 완료되어야 다음 단계로 순차 진행하는 하양식 진행이지만 문제점이 발견되면 전단계로 돌아가는 피드백 수행

    2. 나선형 모델 -> 반복을 통하여 점증적으로 개발. 반복에 대한 관리 체계가 효과적으로 갖추지 못한 경우 복잡도가 상승하여 프로젝트 진행이 어려울 수 있음

    3. 프로토타입모델 -> 시제품이 나오기 전의 제품의 원형으로 개발 검증과 양산 검증을 거쳐야 시제품이 될 수 있다. 프로토타입은 '정보시스템의 미완성 버전 또는 중요한 기능들이 포함되어 있는 시스템의 초기모델'이다.

     

    KDD 분석이란?

    KDD 분석

    1. 분석 대상의 비즈니스 도메인에 대한 이해와 프로젝트 목표를 정확하게 설정

    2. 데이터셋 선택(Selection)

    3. 데이터 전처리(Preprocessing): 분석 데이터셋에 포함되어 있는 잡음(Noise), 이상값(Outlier), 결측치(Missing value)를 식별하고 필요시 제거

    4. 데이터 변환(Transformation): 분석 목적에 맞는 변수를 선택하거나 데이터의 차원을 축소하여 데이터 마이닝을 효율적으로 적용할 수 있도록 데이터셋을 변경하는 작업

    5. 데이터 마이닝(Data Mining): 변환된 데이터셋을 이용하여 분석 목적에 맞는 데이터 마이닐 기법을 선택하고 마이닝 알고리즘을 선택하여 데이터의 패턴을 찾거나 데이터를 분류 또는 예측 등의 마이닐 작업을 시행한다.

    6. 데이터 마이닝 결과 평가(Evaluation/interpretation): 분석 결과에 대한 해석과 평가, 활용

     

    CRISP-DM 분석

    CRISP-DM프로세스는 6단계로 구성되어 있으며, 각 단계를 폭포수모델처럼 일방향으로 구성되어 있지 않고 단계 간 피드백을 통하여 단계별 완성도를 높이게 되어 있다.

     

    1. 업무 이해(Business Understanding): 비즈니스 관점 프로젝트의 목적과 요구사항을 이해하기 위한 단계로서 도메인 지식을 데이터 분석을 위한 문제 정의로 변경하고 초기 프로젝트 계획을 수립하는 단계: 업무 목적 파악, 데이터 마이닝 목표 성정, 프로젝트 계획 수립

    2. 데이터 이해(Data Understading): 데이터 이해는 분석을 위한 데이터를 수집하고 데이터 속성을 이해하기 위한 과정으로 구성되고 데이터 품질에 대한 문제점을 식별하고 숨겨져 있는 인사이트를 발견하는 단계: 초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인

    3. 데이터 준비(Data Preparation): 데이터 준비는 분석을 위하여 수집된 데이터에서 분석 기법에 적합한 데이터셋을 편성하는 단계로서 많은 시간이 소요될 수 있다. 분석용 데이터셋 선택, 데이터 정제, 데이터 통합, 데이터 포맷팅이 해당된다.

    4. 모델링(Modeling): 다양한 모델링 기법과 알고리즘 선택하고 모델링 과정에서 사용되는 파라미터를 회적화해 나가는 단계이다. 모델링 단계를 통하여 찾아낸 모델은 테스트용 프로세스와 데이터셋으로 평가하여 모델 과적합(Overfitting)등의 문제를 발견하고 대응방안을 마련한다.

    5. 평가(Evaluation): 모델링 단계에서 얻은 모델이 프로젝트의 목적에 부합하는 평하가한다. 이 단계의 목적은 데이터 마이닝 결과를 수용할 것인지 최종적으로 판단하는 과정: 분석결과 평가, 모델링 과정 평가, 모델 적용성 평가

    6. 전개(Deployment): 모델링과 평가 단계를 통하여 완성된 모델은 실제 업무에 적용하기 위한 계획을 수립하고 모니터링과 모델의 유지보수 계획을 마련: 전개 계획 수립, 모니터링과 유지보수 계획 수립, 프로젝트 종료보고서 작성, 프로젝트 리뷰

     

    KDD와 CRISP-DM 비교

    KDD

    CRISP-DM

    분석 대상 비즈니스 이해

    업무 이해

    데이터셋 선택 데이터 이해
    데이터 전처리 데이터 이해
    데이터 변환 데이터 준비
    데이터 마이닝 모델링
    데이터 마이닝 결과 평가 평가
    데이터 마이닝 활용  전개

     

    1. 분석기획 단계

    - 비즈니스 이해 및 범위 설정

    비즈니스 이해 빅데이터 분석 대상인 업무 도메인을 이해하기 위해서는 내부 업무 매뉴얼과 관련 자료, 외부의 관련 비즈니스 자료를 조사하고 향후 프로젝트 진행을 위한 방향을 설정한다.

     

    - 프로젝트 범위 설정

    빅데이터 분석 프로젝트의 대상인 비즈니스에 대한 이해와 프로젝트목적에 부합하는 범위를 명확히 설정하고 프로젝트에 참여하는 관계자들(Stakeholer)의 이해를 일치시키기 위하여 구조화된 프로젝트 범위 정의서인 SOW(Statment of Work)를 작성한다. 

     

    2. 프로젝트 정의 및 계획 수립

    - 데이터 분석 프로젝트 정의

    프로젝트의 목표 및 KPI(핵심성과지표), 목표수준 등을 구체화하여 상세 프로젝트 정의서를 작성하고 프로젝트의 목표를 명확화하기 위하여 모델 이미지 및 평가 기준을 설정한다.

     

    - 프로젝트 수행 계획 수립

    프로젝트 수행 계획서를 작서아는 단곌서 프로젝트의 목적 및 배경, 기대효과, 수행 방법, 일정 및 추진 조직, WBS을 작성한다.

     

    3. 프로젝트 위험 계획 수립

    - 데이터 분석 위험 식별, 계획 수립 단계에서 빅데이터 분석 프로젝트를 진행하면서 발생 가능항 모든 위험을 식별한다. 식별된 위험은 위험의 영향도와 빈도, 발생가능성 등을 평가하여 위험의 우선순위를 설정한다.

     

    데이터 준비 단계

    1. 필요 데이터 정의

    - 데이터 정의: 정형, 비정형, 반정형 등의 모든 내외부 데이터를 포함하고 데이터의 속성, 데이터 오너, 데이터 관련 시스템 담당자 등을 포함하는 데이터 정의서를 작성한다.

    예) 메타데이터 정의서, ERD 포함.

    - 데이터 획득 방안 수립

     

    2. 데이터 스토어 설계

    - 정형 데이터 스토어 설계; 일반적으로 관계형 데이터베이스를 사용하고 데이터의 효율적인 저장과 활용을 위하여 데이터 스토어의 논리적, 물리적 설계를 구분하여 설계한다.

    예) 데이터 매핑 정의성

    - 비정형 데이터 스토어 설계: 하둡, NoSQL 등을 이용하여 비정형 또는 반정형 데이터를 저장하기 위한 논리적, 물리적 데이터 스토어를 설계한다.

     

    3. 데이터 수집 및 정합성 점검

    - 데이터 수집 및 저장

    크롤링 등의 데이터 수집을 위한 ETL 등의 다양한 도구와 API, 스크립트 프로그램 등을 이용하여 데이터를 수집하고, 수집된 데이터를 설계된 데이터를 스토어에 저장한다.

    - 데이터 정합성(무결성)점검

    데이터 스토어의 풀짐 점검을 통하여 정합성을 확보하고 데이터 품질개선이 필요한 부분에 대하여 보완 작업을 한다.

     

    데이터분석 단계

    1. 분석용 데이터 분비

    - 비즈니스 룰 확인: 분석 계획 단계에서 비즈니스 이해, 도메인 문제점 인식, 프로젝트 정의 등을 이용하여 프로젝트의 목표를 정확하게 인식

    - 분석용 데이터셋 준비: 데이터 스토어로부터 분석에 필요한 정형, 비정형 데이터를 추출한다.

     

    2. 텍스트 분석

    웹 페이지 데이터, 로그 데이터, 텍스트 자료 등 비정형,반정형 텍스트 데이터를 이용하여 어휘/구문 분석, 감성 분석, 토픽 분석, 오피니언 분석, 소셜 네트워크분석 등을 실싷여 텍스트로부터 분석 목적에 맞는 적절한 모델을 구축한다.

     

    3. 탐색적 분석(EDA)

    다양한 관점별로 기초 통계량을 산출하고 데이터의 분포와 변수 간의 관계 등 데이터 특성 및 데이터의 통계적 틍성을 이해하고 모델링을 위한 기초 자료로 활용한다. 데이터 시각화는 탐색적 데이터 분석을 위한 도구로 활용한다.

     

    4. 모델링(Modeling)

    모델링이란 분석용 데이터를 이용한 가설 설정을 통하여 통계 모델을 만들거나 기계학습을 이용한 데이터의 분류, 예측, 군집 등의 기능을 수행하는 모델을 만드는 과정이다.

    - 데이터 분할

    모델링을 효과적으로 진행하기 위해서는 모델링 저에 데이터셋을 훈련용과 데스트용으로 분할함으로써 모델의 과접합을 방지하거나 모델을 일반화에 이용된다.

    - 데이터 모델링

    기계학습 등을 이용한 데이터 모델링은 훈련용 데이터를 활용하여 분류, 예측, 군집 등의 모델을 만등어 가동 중인 운영 시스템에 적용한다. 또한 필요시 비정형 데이터 분석결과를 통합적으로 활용하여 프로젝트 목적에 맞는 통합 모델링을 수행한다.

    - 모델 적용 및 운영 방안

    모델을 가동 중인 운영시스템에 적용하기 위해서는 모델에 대한 상세한 알고리즘 작성이 필요하다. 필요시 의사코드 수준의 작성이 필요할 수도 있다.

     

    5. 모델 평가 및 검증

    프로젝트 정의서의 모델 평가 기준에 따라 모델을 객관적으로 평가하고 품질관리 차원에서 모델 평가 프로세스를 진행한다. 모델의 실제 적용성을 검ㅈㅇ하기 위하여 검증용 데이터를 이용해 모델 검증 작업을 실시하고 모델링 검증 보고서를 작성한다.

     

    하향식 접근 방식 vs 상향식 접근 방식

    - 하향식 접근 방식(Top Down Approach)

    현황 분석 또는 인식된 문제점, 전략으로부터 기회나 문제를 탐색(Problem Discovery), 해당 문제를 데이터 문제로 정의(Problem Definition)한 후 해결 방안 탐색(Solution Search) 그리고 데이터 분석의 타당성 평가(Feasibility Study)를 거쳐 분석 과제를 도출하는 과정으로 이루어진다.

     

    문제탐색(Problem Discovery) 단계

    1. 비즈니스 모델 기반 문제 탐색

    비즈니스 모델 틀을 활용하여 가치가 창출될 문제를 누락 없이 도출할 수 있다. 비즈니스 모델 관점에서는 해당 기업의 사업 도멜을 도식화한 비즈니스 모델 캔버스의 9가지 블록을 단순화하여 업무, 제품, 고객 단위로 물제를 발굴하고 이를 관리하는 두가지의 영역인 규제와 감사 영역과 지원 인프라 영역에 대한 기회를 추가로 도출하는 작업을 수행한다.

     

    2. 분석 기회 발굴의 범위 확장

    - 거시적 관심의 요인: STEEP로 요약되는 사회(Social), 기술(Technological), 경제(Economic), 환경(enviromental), 정치(Political) 영역으로 나누어서 좀 더 폭넓게 기획 탐색을 수행한다.

    - 경쟁자 확대 관점: 사업 영역의 직접 경쟁사 영역 및 제품, 서비스의 대체재 영역과 신규 진입자 영역 등으로 관점을 확대하여 위협이 될 수 있는 상황에 대한 분석 기회 발굴의 폭을 넓혀서 탐색한다.

    - 시장의 니즈 탐색: 고객 영역과 고객과 접촉하는 역할을 수행하는 채널 영역 및 고객의 구매와 의사결정에 영향을 미치는 영향자들 영역에 대한 관점을 바탕으로 분석 기회를 탐색한다.

    - 역량의 재해석 관점: 내부역량 영역뿐만 아니라 해당 조직의 비즈니스에 영향을 미치는 파트너 네트워크 영역을 포함한 활용 가능한 역량을 토대로 폭넓은 분석 기회를 탐색한다.

     

    3. 외부 참조 모델 기반 문제 탐색

     

    4. 분석 유즈 케이스

     

    문제정의 단계

    식별된 비즈니스 문제를 데이터의 문제로 변환하여 정의하는 단계이다. 필요한 데이터 및 기법을 정의하기 위한 데이터 분석의 문제로의 변환을 수행하게 된다. 앞서 수행한 문제 탐색의 단계가 무엇을 어던 목적으로 수행해야 하는지에 대한 관점이었다면 문제 정의 단계에서는 이를 달성하기 위해서 필요한 데이터 및 기법을 정의하기 위한 데이터 분석의 문제로 변환을 수행하게 된다.

     

    비즈니스 문제 -> 분석 문제
    예상치 않은 설비 장애로 인한 판매량 감소 -> 설비의 장애를 이끄는 신호를 감지하여 설비 장애 요인으로 식별하고 장애 발생 시저점 및 가능성을 예측
    기존 판매 정보 기반 영업사원의 판단 시 재고 관리 및 적정 가격 판매 어려움 -> 내부 판매 정보 오의 수요예측을 수행할 수 있는 인자의 추출 및 모델링을 통한 수요 예측

    비즈니스 문제의 분석 문제 변환 예시

     

    상향식 접근 방식(Bottom Up Approach)

    문제의 정의 자체가 어려운 경우 데이터를 기반으로 문제의 재정의 및 해결방안을 탐색하고 이를 지속적으로 개선하는 방식이며, 일반적으로 상향식 접근 방식의 데이터 분석은 비지도학습 방법에 의해 수행된다.

    통계적 분석에서는 인과관계 분석을 위해 가설을 설정하고 이를 검정하기 위해 모집단으로 표본을 추출하고 그 표본을 이용한 가설검증을 실시하는 방식으로 문제를 해결함. 그러나 빅데이터 호나경에서는 이와 같은 논리적인 인과관계 분석뿐만 아니라 상관관계 분석 또는 연관분석을 통하여 다양한 문제 해결에 도움을 받을 수 있다. 즉 인과관계로부터 상관관계분석으로의 이동이 빅데이터 분석에서의 주요 변화라고 할 수 있다. 다량의 데이터 분석을 통해서 "왜" 그러한 일이 발생하는지 역으로 추적하면서 문제를 도출하거나 재정의할 수 있는 것이 상향식 접근 방법이다.

     

    지도학습 vs 비지도학습

    1. 지도학습은 말 그대로 학습을 지도한다는 뜻으로, 훈련용 데이터에 알고리즘을 적용하여 함수를 추론하고, 이제 그 추론된 함수를 통해 컴퓨터가 알아서 답을 찾도록 만드는 것이다. 따라서 지도학습은 명확안 input과 output이 존재한다. 이러한 지도학습에는 분류와 예측이 있다.

    먼저 예측(Regression)은 데이터를 대표하는 선형모델 등으로 만들고 그 모델을 통해 미래의 사건을 예측하는 것이다. 분류(Classification)는 이전까지 학습된 데이터를 근거로, 새로운 데이터가 기존에 학습된 데이터에 분류가 되냐 안 되냐로 판단할 수 있다.

     

    2. 비지도학습에서도 역시 분류를 하지만, 컴퓨터에게 답을 알려줄 수 없다. 즉, 룬현용 데이터를 통해 함수를 추론할 수 없다. 컴퓨터가 알아서 분류를 하고, 의미 있는 값을 보여준다. 따라서 예츠 등이 아닌, 데이터가 어떻게 구성되어 있는지 밝히는데 주로 사용하고, 이종의 그룹핑 알고리즘으로 볼 수 있다.

     

    분석 과제 5가지 주요 특성

    Data Size 분석하고자 하는 데이터 양을 고려한 관리 방안 수립이 필요
    Data Complexity 다양한 유형의 데이터가 통합해서 분석 프로젝트를 진행할 때는 해당 데이터에 잘 적용될 수 있는 분석 모델의 선정을 고려해야 한다.
    Speed 배치 형태인지 실시간 분석의 형태인지를 고려해야 한다.
    Analytic Complexity 분석 모델이 복잡할수록 정확도는 올라가지만 해석이 어려워지는 단점이 존재하므로 이에 대한 기준점을 사전에 정의해 두어야 한다.
    Accuacy & Precicion  Accuracy는 모델과 실제값 사이의 차이가 적다는 정확도를 의미, Precision은 모델을 지속적으로 반복했을 때의 편차의 수준

     

    10개 주제별 프로젝트 관리 체계

    주제 그룹 개념 및 관련 프로세스
    통합 프로젝트와 관련된 다양한 호라동과 프로세스를 도출, 정의, 결합, 단일화, 조정, 통제, 종료에 필요한 프로세스
    이해관계자 프로젝트 스폰서, 고객사, 기타 이해관계자를 식별하고 관리하는 데 필요한 프로세스
    범위 작업과 인도물을 식별하고 정의하는 데 요구되는 프로세스
    자원 인력, 시설, 장비, 자재, 기반 시설, 도구와 같은 적절한 프로젝트 자원을 식별하고 확보하는 데 필요한 프로세스
    시간 프로젝트 활동의 일정을 수립하고 일정 통제의진척상황을 관찰하는 데 요구되는 프로세스
    원가 예산개발과 원가통제의 진척상황을 관찰하는 데 요구되는 프로세스를 포함
    리스크 위험과 기회를 식별하고 관리하는 프로세스
    품질 계획에 요구된 프로세스를 포함하여 제품 및 서비스 또는 인도물을 인수하고 공급자와의 관계를 관리하는데 요구되는 프로세스
    의사소통 프로젝트와 관련된 정보를 계획, 관리, 배포하는 데 요구되는 프로세스 

     

    분석 마스터플랜

    마스터플랜 수립 시 우선순위 고려 요소 vs 적용 범위 및 방식 구분하자

     

    우선순위 고려 요소 - 전략적 중요도, 비즈니스 성과/ROI, 실행 용이성 -> 적용 우선순위 결정

    적용 범위/방식 고려 요소- 업무 내재화 적용 수준, 분석 데이터 적용 수준, 기술 적용 수준 -> 분석 구현 로드맵 수립

     

    ROI 요소를 고려한 분석 과제 우선순위 평가

    과제 우선순위 평가 기준

    -시급성(전략적 중요도, 묙표가치) -Value

    -난이도 데이터 획득/저장/가공 비용 분석 적용 비용/ 분석 수준 - Volume, Variety, Velocity

     

    포트폴리오 사분면 분석을 통한 과제 우선순위 선정 기법

    우선순위 기준을 시급성을 고려하여 우선 추진해야 하는 분석 과제와 제한된 자원을 고려하여 단기적 또는 중장기적으로 추진해야 하는 분석 과제 등을 4가지 유형으로 구분하여 분석 과제의 우선순위를 결정한다.

    분석 과제의 적용 우선 순위를 '시급성'에 둔다면 3->4->2 영역순이며, 난이도를 기준으로 둔다면 3->1->2 영역순으로 의사결정을 할 수 있다.

     

    1 2
    3 4

    1 사분면: 전략적 중요도가 높아 경영에 미치는 영향이 크므로 현재 시급하게 추진이 필요함. 난이도가 높아 현재 수준에서 바로 적용하기 어려움

    2 사분면: 현재 시점에서는 전략적 중요도가 높지 않지만 중장기적 관점에서는 반드시 추진되어야 함. 분석 과제를 바로 적용하기에는 난이도가 높음

    3 사분면: 전략적 중요도가 높아 현재 시점에 전략적 가치를 두고 있음. 과제 추진의 난이도가 어렵지 않아 우선적으로 바로 적용 가능할 필요성이 있음

    4 사분면: 전략적 중요도가 높지 않아 중장기적 관점에서 과제 추진이 바람직함. 과제를 바로 적용하는 것은 어렵지 않음

     

    분석 과제 우선순위 조정

    1. 시급성과 난이도가 높은 1사분면은 경여진 또는 실무 담당자의 의사결정에 따라 적용 우선순위를 조정할 수 있다.

    2. 기술적 요소에 따라서도 적용 우선순위를 조정할 수 있다.

    3. 분석 범위에 따라서도 적용 우선순위를 조정할 수 있다.

     

    분석 거버넌스 체계 구성 요소

     

    분석 준비도

    1. 분석 준비도

    데이터 분석 수준 진단은 6개 영역에서의 분석 준비도와 3개의 영역에서의 분석 성숙도를 함께 평가함으로써 수행될 수 있다. 분석을 위한 준비도 및 성숙도를 진단하는 궁극적인 목표는 각 기업이 수행하는 현재의 분석 수준을 명확히 이해하고, 수준 진단 결과를 토대로 목표 수준을 정의하는 데 있다. 또한 데이터를 활용한 분석의 경쟁력 확보를 위해 어떠한 영역에 선택과 집중을 해야 하는지, 어떤 관점을 보완해야 하는지 등 개선방안을 도출할 수 있다.

    2. 데이터 분석 준비도 프레임 워크

    - 분석업무 파악:발생한 사실 분석 업무, 예측 분석 업무, 시뮬레이션 분석 업무, 최적화 분석 업무, 분석 업무 정기적 개선

    - 인력 및 조직: 분석 전문가 직무 존재, 분석 전문가 교육 훈련 프로그램, 관리자의 기본 분석 능력, 전사 분석 업무 총괄 조직 존재, 경영진 분석 업무 이해 능력

    - 분석 기법: 업무별 적합한 분석 기법 사용, 부넉 업무 도입 방법론, 분석 기법 라이브러리, 분석 기법 효과성 평가, 분석 기법 정기적 개선

    - 분석 데이터: 분석 업무를 위한 데이터 충분성 및 신뢰성, 적시성, 비구조적 데이터 관리, 외부 데이터 활용 체계, 기준 데이터 관리

    - 분석 문화: 사실에 근거한 의사결정, 관리자의 데이터 중시, 회의 등에서 데이터 활용, 경영진의 직관보다 데이터의 활용, 데이터 공유 및 협업문화

    - 분석 인프라: 운영 시스템 데이터 통합, EAI, ETL 등 데이터 유통체계, 분석 전용 서버 및 스토리지, 빅데이터 분석 환경, 비쥬얼 분석 환경

     

    분석 성숙도 모델 

    분석 성숙도 진단은 비즈니스 부문 조직 및 역량 부문, IT 부문 등 3개 부문을 대상으로 성숙도 수준에 따라 도입 단계, 활용 단계, 최적화 단계로 구분해 살펴 볼 수 있다. 

     

    단계 도입 단계 활용 단계 확산 단계 최적화 단계
    설명 분석을 시작하여 환경과 시스템을 구축 분석 결과를 실제 업무에 적용 전사차원에서 분석을 관리하고 공유 분석을 진화시켜서 혁신 및 성과 향상에 기여
    비즈니스 부문

    실적분석 및 통계

    정기보고 수행

    운영 데이터 기반

    미래 결과 예측

    시뮬레이션

    운영 데이터기반

    전사성과 실시간분석

    프로세스혁신 3.0

    분석규칙관리

    이벤트 관리

    외부환경 분석 활용

    최적화 업무 적용

    실시간 분석

    비즈니스 모델 진화

    조직 역량 부문

     

    일부 부서에서 수행

    담당자 역량에 의존

    전문 담당부서에서 수행

    분석 기법 도입

    관리자가 분석 수행

    전사모든부서 수행

    분석COE조직운영

    데이터 사이언티스트 확보

    데이터 사이언스 그룹

    경여진 분석 활용

    전략 연계

    IT 부문

    데이터 웨어하우스

    데이터마트

    ETL/EAI

    OLAP

    실시간 대시보드

    통계분석 환경

    빅데이터관리 환경

    시뮬레이션 최적화

    비주얼 분석

    분석 전용 서버

    분석 협업 환경

    분석 Sandbox

    프로세스 내재화

    빅데이터 분석 

     

    분석 수준 진단 결과

    사분면분석 같이 분석 관점에서 4가지 유형으로 분석 수준 진단 결과를 구분하여 향후 고려해야 하는 데이터 분석 수준에 대한 목표 방향을 정의하고, 유형별 특성에 따라 개선방안을 수립

     

    데이터 거버넌스 구성요소

    1. 원칙: 데이터를 유지 관리하기 위한 지침과 가이드 및 보안, 품질기준, 변경관리

    2. 조직: 데이터를 관리할 조직의 역할과 책임 및 데이터 관리자, 데이터 아키텍트

    3. 프로세스: 테이터 관리를 위한 활동과 체계 및 작업절차, 모니터링 활동

     

    데이터 거버넌스 체계요소

    1. 데이터 표준화 -> 데이터 표준 용어 설명, 명명 규칙, 메타 데잍 구축, 데이터 사전 구축

    2. 데이터 관리체계 -> 메타데이터와 데이터 사전의 관리 원칙을 수립

    3. 데이터 저장서관리 -> 메타 데이터 및 표준 데이터를 관리하기 위한 전사 차원의 저장소를 구성

    4. 표준화 활동-> 데이터 거버넌스 체계를 구축한 후 표준 준수 여부를 주기적으로 점검하고 모니터링을 실시

     

    데이터 분석 업무 수행 주체에 따른 3가지 유형

    집중구조

    - 전사 분석 업무를 별도의 분석 전담 조직에서 담당

    - 전략적 중요도에 따라 분석조직이 우선순위를 정해서 진행 가능

    - 현업 업무부서의 분석 업무와 이중화.이원화 가능성 높음

     

    기능구조

    - 일반적인 분석 수행 구조

    - 별도 분석조직이 없고 해당 업무부서에서 분석 수행

    - 전사적 핵심 분석이 어려우며, 부서 현황 및 설적 통계 등 과거 실적에 국한된 분석 수행 가능성 높음 

     

    분산구조

    - 분석조직 인력들을 협업부서로 직접 배치하여 분석 업무 수행

    - 전사 차원의 우선순위 수행

    - 분석 결과에 따른 신속한 Action 가능

    - 베스트프래기스 공유 가능

    - 부서 분석업무와 역할 분담 명확히 해야 함

    'Study > 자격증' 카테고리의 다른 글

    [ADsP 정리] 3.데이터 분석  (0) 2020.03.10
    [ADsP 정리] 1.데이터 이해  (0) 2020.02.24

    댓글

Designed by Tistory.