ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [ADsP 정리] 1.데이터 이해
    Study/자격증 2020. 2. 24. 18:00

    데이터 정의
    데이터는 객관적 사실 -> 존재적 특성 동시에 추론, 예측, 전망, 추정을 위한 당위적 특성을 가짐.
    다른 객체와의 상호관계 속에서 가치를 갖는다.

    데이터 유형
    정성적 데이터: 언어, 문자
    정량적 데이터: 수치, 기호, 도형

    지식경영
    지식경영 = 암묵지 + 형식지의 상호작용 속에서 지식이 공유되며 생성이 된다.
    암묵지: 학습과 체엄을 통해 개인에게 습득, 시행착오와 오랜 경험을 통해 개인에게 습득된 무형 지식으로 외부와 공유되기 어려움 예)김장김치담그기, 자전거타기
    형식지: 교과서, 메뉴얼 비디오, DB 형상화된 지식을 의미, 지식의 공유가 용이

    암묵지+형식지의 4단계 지식전환 모드
    1단계: 공통화 (암묵지 지식 노하우를 다른 사람에게 알려주기)
    2단계: 표출화 (암묵적 지식 노하우를 책이나 교본 등 형식지로 만들기)
    3단계: 연결화 (책이나 교본(형식지)에 자신이 알고 있는 새로운 지식(형식지)를 추가하기)
    4단계: 내면화 (만들어진 책이나 교본(형식지)를 보고 다른 직원들이 암묵적 지식(노하우)을 습득)

    위 4개를 SECI 모델이라고 함(Socialization-Externalization-Combination-Internalization Model)

    데이터와 정보와의 관계
    Data-Information-Knowledge-Wisdom 계층구조는 데이터의 당위적 특정과 관련

    Data: 존재 형식을 불문하고, 타 데이터와의 상관관계가 없는 가공하기 전의 순수한 수치나 기호
    Information: 데이터의 가공 및 상관관계간 이해를 통해 패턴을 인식하고 의미 부여
    Knowledge: 상호 연결된 정보 패턴을 이해하여 이를 토대로 예측한 결과물
    Wisdom: 근본 원리에 대한 깊은 이해를 바탕으로 도출되는 아이디어

    데이터베이스
    데이터베이스는 "동시에 복수의 적용 업무를 지원할 수 있도록 복수 이용자의 요구에 대응해서 데이터를 받아들이고 저장, 공급하기 위하여 일정한 구조에 따라서 편성된 데이터의 집합", "관련된 레코드의 집합, 소프트웨어로는 데이터베이스 관리시스템(DBMS)을 의미

    관계형 데이터 베이스 관리시스템(RDBMS)
    일련의 정형화된 테이블로 구성된 데이터 항목들의 집합체로서, 그 데이터들은 데이터베이스 테이블을 재구성하지 않더라도 다양한 방법으로 접근하거나 조합이 가능

    객체 지향 데이터베이스 관리시스템(ODBMS)
    객체들을 생성하여 계층에서 체계적으로 정리하고, 다시 계층들을 하위 계층이 상위 계층으로부터 속성과 방법들을 물려받을 수 있는 계승 가능한 구조로 구성됨

    데이터베이스 특징
    통합된 데이터(intergrated data): 데이터베이스에서 동일한 내용의 데이터가 중복되어 있지 않다는 것을 의미
    저장된 데이터(stored data): 자기 디스크나 자기 테이프 등과 같이 컴퓨터가 접근할 수 있는 저장매체에 저장되는 것을 의미
    공용 데이터(shared data): 여러 사용자가 서로 다른 목적으로 데이터베이스의 데이터를 공동 이용 
    변화되는 데이터(Changed data): 새로운 데이터의 추가, 기존 데이터의 삭제, 갱신으로 항상 변화하면서도 항상 현재의 정확한 데이터를 유지해야 한다는 의미

    데이터베이스 특성
    1. 정보의 축적 및 전달 측면 -> 대량의 정보를 정보처리기기가 읽고 쓸 수 있는 기계가 독성과 필요한 정보를 검색할 수 있는 검색 사능성, 정보통신망을 이용하여 원거리에서도 온라인으로 이용할 수 있는 원격 조작성을 갖는다.
    2. 정보 이용 측면 -> 이용자의 정보 요구에 따라 다양한 정보를 신속하게 획득하고, 원하는 정보를 경제적으로 찾아낼 수 있다.
    3. 정보 관리 측면 -> 데이터베이스는 정보처리, 검색, 관리 소프트웨어 등 네트워크 발전 기술을 견인할 수 있다.
    4. 경제, 산업적 측면 -> 데이터베이스는 인프라로서 특성을 가지고 있어 경제, 산업, 사회 활동의 효율성을 제고하고 국민의 편의를 증진하는 수단으로 의미를 가진다.

    기업내부 데이터베이스 솔루션 1980년대
    OLTP 온라인 거래처리: 주 컴퓨터와 통신회선으로 접속되어 있는 복수의 사용자 단말에서 발생한 트랜잭션을 주 컴퓨터에서 처리하여 그 결과를 즉석에서 사용자에게 되돌려보내 주는 처리 형태. 여러 과정이 하나의 단위 프로세스로 실행되도록 하는 프로세스
    OLAP 온라인 분석처리: 다차원으로 이루어진 데이터로부터 통계적인 요약 정보를 제공할 수 있는 기술

    기업내부 데이터베이스 솔루션 2000년대
    CRM(Customer Relationship Management):
    선별된 고객으로부터 수익을 창출하고 장기적인 고객관계를 가능케함으로써 보다 높은 이익을 창출할 수 있는 솔루션을 말한다.
    SCM(Supply Chain Management): 제조, 물류 유통업체 등 유통공급망에 참여하는 모든 업체들이 협력을 바탕으로 정보기술을 활용, 재고를 최적화하기 위한 솔루션이다.

    분야별 기업내부 데이터베이스 솔루션
    제조부문: DW(Data Warehouse) - 정보 검색을 목적으로 구축된 데이터베이스, ERP(Enterprice Resourse Planning) - 제조업을 포함한 다양한 비즈니스 분야에서 주요 프로세스 관리를 돕는 여러 모듈로 구성된 통합 애플리케이션 소프트웨어 패키지, BI(Business Intelligence) - 기업의 DW에 저장된 데이터에 접근해 경영의사결정에 필요한 정보를 획득하고 이를 경영활동에 활용, CRM

    금융부문: EAI(Enterprice Architecture Intergration) - 기업 애플리케이션 통합을 의미하며 ERP, CRM, SCM, 인트라넷 등의 시스템 간에 상호 연동이 가능하도록 통합하는 솔루션
    EDW(Enterprice Data Warehouse) 기존 DW를 전사적으로 확장한 모델인 동시에 BPR, CRM, BSC 같은 다양한 분석 애플리케이션들을 위한 원천이 된다. 따라서 EDW를 구축하는 것을 단순히 정보를 빠르게 전달하는 대형 시스템을 도입한다는 의미한 아니라 기업리소스의 유기적 통합, 다원화된 관리 체계 정보, 데이터의 중복 방지 등을 위해 시스템을 재설계하는 것, 블록체인 - 데이터 분산 처리 기술로 네트워크 참여하는 모든 사용자가 거래내역 등의 데이터를 분산, 저장하는 기술을 말한다. 

    유통부문: KMS(Knowledge Management System) 지식관리시스템의 약자, 조직 내의 지식을 체계적으로 관리하는 시스템을 의미, 예전에는 대부분의 기업이 물품을 생산하던 환경이었지만 요즘에는 지적 재산이 매우 중요해짐에 따라 기업을 관리하는 시스템이 등장

    BI와 BA차이
    BI: 과거의 성과를 측정하고 향수 비즈니스를 계획, 데이터 기반 의사결정
    BA: 데이터와 통계를 기반으로 성과에 대한 이해와 비즈니스 통찰력에 초점을 둔 분석 방법, 사전에 예측하고 최적화하기 위함, BI보다 진보된 형태

    빅데이터란
    Volume(데이터의 크기): 생성되는 모든 데이터를 수집
    Variety(데이터의 다양성): 정형화된 데이터를 넘어 텍스트, 오디오, 비디오 등 모든 유형의 데이터를 분석
    Velocity(데이터의 속도): 원하는 시간 내 데이터분석 결과 제공, 데이터의 업데이터되는 속도가 매우 빨리짐

    빅데이터 역할
    1.빅데이터는 산업혁명의 석탄, 철
    빅데이터는 석탄과 철이 산업혁명에서 했던 역할을 차세대 산업혁명에서 해낼 것으로 기대된다. 빅데이터 역시 지금의 제조업뿐 아니라 서비스 분야의 생산성을 획기적으로 끌어올려 혁명적 변화를 가져올 것으로 기대된다. 
    2.빅데이터는 원유
    빅데이터는 원유처럼 각종 비즈니스, 공공기관 대국민 서비스, 경제 성장에 필요한 '정보'를 제공함으로써 산업 전반의 생산성을 한 단계 향상시킬 것으로 기대된다.
    3. 빅데이터는 렌즈
    현미경이 생물학 발전에 미쳤던 영향만큼 나아가 데이터가 산업 전반에 영향을 미칠 것으로 기대된다.
    4. 빅데이터는 플랫폼
    플랫폼이란 다양한 차원에서 활용되는 개념이지만, 비즈니스 측면엣는 일반적으로 '공동 활용의 목적으로 구축된 유무형의 구조물'을 의미한다.

    빅데이터가 만들어내는 본질적인 변화
    1. 사전처리에서 사후처리 시대로
    2. 표본조사에서 전수조사로
    3. 질보다 양으로
    4. 인과관계에서 상관관계로

    빅데이터의 가치 산정이 어려운 이유
    1. 데이터의 활용 방식: 재사용이나 재조합, 다목적용 데이터 개발 등이 일반화되면서 특정 데이터를 언제, 어디서, 누가 활용할지 알 수 없다.
    2. 새로운 가치 창출: 빅데이터 시대에는 기존에 없던 가치를 창출함에 따라 그 가치를 측정하기 어렵다. 
    3. 분석기술의 발달: 지금은 가치 없는 데이터도 새로운 분석 기법의 등장으로 거대한 가치를 만들어내는 재료가 될 가능성이 있다. 

    빅데이터의 영향
    기업: 경쟁력 제고, 생산성 향상
    정부: 환경탐색, 상황분석, 미래대응
    개인: 목적에 따라 활용
    생활 전반의 스마트화

    빅데이터 활용 사례
    1. 구글의 검색엔진, 월마트의 구매패턴 분석, IBM 왓슨 의료분야에 활용
    2. 정부의 실시간 교통벙조 활용, CCTV 국가안전에 활용
    3. 정치인의 사회관계망분석을 통한 유세, 가수의 팬 음악청취 기록 분석 활용
    4. 아마존의 킨들에 쌓이는 전자책 읽기 관련 데이터 분석해 저자들에게 제공

    빅데이터 활용 테크닉
    1. 연관규칙학습: 어떤 변수 간에 주목할만한 상관관계가 있는지 찾아내는 방법이다.
    2. 유형분석: 사용자가 어떤 특성을 가진 집단에 속하는지와 같은 문제를 해결하고자 할 때 사용
    3. 유전 알고리즘: 최대의 시청률을 얻으려면 어떤 프로그맬을 어떤 시간대에 방송해야 하는가와 같은 문제를 해결할 때 사용
    4. 기계학습: 기존의 시청 기록을 바탕으로 시청자가 현재 보유한 영화 중에서 어떤 것을 가장 보고 싶어 할까와 같은 문제를 해결할 때 사용
    5. 회귀분석: 구매자의 나이가 구매 차량의 탕비에 어떤 영향을 미치는가?
    6 감정분석: 새로운 환불 정책에 대한 고객의 평가는 어떤가?
    7. 소셜 네트워크 분석: 영향력있는 사람을 창자낼 수 있으면 고객들 간소셜 관계를 파악할 수 있다.

     

    빅데이터 위기요인과 통제방안
    1.사생활 침해
    (위기요인)빅데이터 시대가 본격화되면서 우리를 둘러싼 정보 수집 센서들의 수가 점점 늘어나고 있고, 특정 데이터가 본래 목적 외에 가공처리돼 2차, 3차적 목적으로 활용될 가능성이 증가하면서 사행활 침해를 넘어 사회, 경제적 위협을 변형될 수 있음
    익명화: 사생활 침해를 방지하기 위해 데이터에 포함된 개인 식별 정보를 삭제하거나 알아 볼 수 없는 형태로 변환하는 것을 말한다. 
    (통제방안)동의에서 책임으로 - 개인정보의 활용에 대한 개인이 매번 동의하는 것은 경제적으로도 매우 비효율적이다. 따라서 사행활침해 문제를 개인정보 제공자의 동의를 통해 해결하기보다는 개인벙조 사용자에게 책임을 지움으로써 개이정보 사용 추제가 보다 적극적인 보호 장치를 강구하게 하는 효과가 발생할 것으로 기대된다.

    2.책임 원칙의 훼손
    (위기요인)빅데이터 기반분석과 예측 기술이 발전하면서 정확도가 증가한 만큼, 분석 대상이 되는 사람들은 예측 알고리즘의 희생양이 될 가능성이 증가한다. 그러나 잠재적 위험 사하에 대해서도 책임을 추궁하는 사회로 변질된 가능성이 높아 민주주의 사회 원칙을 크게 훼손할 수 있다.
    (통제방안) 기존의 책임원칙을 강화할 수 밖에 없다.

    3.데이터의 오용
    (위기요인) 빅데이터는 일어난 일에 대한 데이터에 의존하다. 그것을 바탕으로 미래를 예측하는 것은 적지않은 정확도를 가질 수 있지만 항상 맞을 수는 없다. 주어진 데이터에 잘못된 인사이트를 얻어 비즈니스에 직접 손실을 불러올 수 있다. 
    (통제방안) 데이터 알고리즘에 대한 접근권 허용 및 객관적 인증방안을 도입 필요성 제기

    빅데이터 활용 3요소
    1.데이터: 모든 것을 데이터화ㅏ는 추세를 빅데이터 시대에는 피할 수 없다. 특정한 목적 없이 생산된 데이터라도 창의적으로 재활용되면서 가치를 만들어낼 수 있기 때문이다.
    2.기술: 빅데이터 분석 알고리즘의 진화가 가속화될 것이다. 알고리즘은 데이터 양의 증가에 따라 정확도가 증가하는 일반적인 경향이 있다. 그것은 알고리즘을 학습시킬 수 있는 데이터의 양이 증가하면서 알고리즘도 스마트해지는 경향이 있다.
    3.인력: 데이터 사이언티스트와 알고리즈미스트의 역할이 중요해질 것으로 전망된다. 데이터 사이언티스트는 빅데이터의 다각적 분석을 통해 인사이트를 도출하고 이를 조직 전략 방향 제시에 활용할 줄 아는 기획자로서 전문가 역할을 할 것으로 기대된다.

    가치 창조를 위한 데이터 사이언스와 전략 인사이트
    빅데이터 분석은 'Big'이 핵심이 아니다
    데이터의 양이 아니라 유형의 다양성과 관련이 있다. 빅데이터가 가져다 주는 기회는 데이터의 크기에 있다기보다는 음성, 텍스트, 이미지, 비디오 같은 새롭게 다양한 정보 원천의 활용에 있다.

    전략적 통찰이 없는 분석의 함정
    토마스 데이븐포트의 분석의 기술에 의하면 성과가 우수한 기업들도 가치 분석적 통찰력을 갖췄다고 대답한 비율이 매우 낮다는 사실이다. 그만큼 기업의 핵심 가치와 관련해 전략적 통찰력을 가져다 주는 데이터 분석을 내재화하는 것이 어렵다는 것이다.

    일차적인 분석 경험이 누적되면 활용 범위를 넓혀 전략적으로 변화시켜야 한다.
    대표적인 일차적인 분석 애플리케이션 사례
    금융서비스: 신용점수 산정, 사기 탐지, 고객 수익성 분석
    소매업: 재고 보충, 수요예측
    재조업: 맞춤형 상품 개발, 신상품 개발 
    에너지: 트데이딩, 공급, 수요예측
    온라인: 웹 매트릭스, 사이트 설계, 고객 추천

    데이터 사이언스가 다른 학문과의 차이점
    분석 대상: 정형 비정형 반정형
    분석 방법: 분석 시각화 전달 포함한 포괄적 개념
    학문 접근: 종합적 학문 또는 총제적 접근법

    데이터 사이언스의 구성요소
    IT, Analytics, 비즈니스 분석

    Gartner 데이터 사이언티스트의 역량
    데이터 관리, 분석 모델링, 비즈니스 분석, 소프트 스킬
    공통점은 호기심에서 시작

    데이터 사이언티스트의 역량
    하드스킬
    빅데이터에 대한 이론적 지식: 관련 기법에 대한 이해와 방법론 습득
    분석 기술에 대한 숙련: 최적의 분석 설계 및 노하우 축적

    소프트 스킬
    통찰력 있는 분석: 창의적 사고, 호기심, 논리적 비판
    설득력 있는 전달: 스토리텔링, Visualization 
    다분야 간 협력: Communication

    왜 데이터 사이언스가 과학과 인문의 교차로에 있는가?
    데이터 사이언스는 과학과 인문의 교차로에 서 있다고 할 수 있다. 그래서 세계적인 데이터 사이언스 전문가들이 이구동성으로 데이터 사이언티스트에게 스토리텔링, 커뮤니케이션, 창의력, 열정, 직관력, 비판적 시각, 글쓰기 능력, 대화 능력 등이 필요하다고 강조한다. 그리고 이러한 능력들은 대부분 인문학의 주요 주제들이다.

    최근의 사회경제적 환경의 변화
    1. 단순 세계화에서 복잡한 세계화로
    2. 비즈니스의 중심이 제품생산에서 서비스로
    3. 경제와 산업의 논리가 생산에서 시장창조로

    정보와 통찰력의 차이
    정보: 과거(무슨 일이 있어났는가?, 리포트), 현재( 무슨 일이 일어나고 있는가?, 경고) 미래(무슨 일이 일어날 것인가?, 추출)
    통찰력: 과거(어떻게 왜 일어났는가?, 모델링) 현재(차선 행동은 무엇인가?, 권고) 미래(최악, 최선의 상황은?, 예측 최적화)

    빅데이터 회의론을 넘어: 가치 패러다임의 변화
    1. 디지털화
    2. 연결
    3. 에이전시 

    'Study > 자격증' 카테고리의 다른 글

    [ADsP 정리] 3.데이터 분석  (0) 2020.03.10
    [ADsP 정리] 2.데이터의 분석 기획  (0) 2020.02.27

    댓글

Designed by Tistory.