ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [엔터프라이즈 데이터 플랫폼 구축] 1. 빅데이터 기술 기초 다지기
    Software Development/Data Platform 2022. 1. 15. 19:30

    엔터프라이즈 데이터 플랫폼 구축을 읽고 요약, 정리 및 개인적인 의견을 담기위해 이 글을 씁니다.

     

    하둡에 영감을 준 구글에서 발행한 논문들의 내용을 보면 이런 시스템을 만들게 된 이유는 순수하게 정말로 필요했기 때문이었다.

    당시에는 이런 기술이 아예 존재하지 않았다. 대규모 데이터를 처리하려면 다수의 프로세서와 다수의 메모리를 장학한 소수의 고사양 서버를 도입하고, NAS나 SAN에 저장된 데이터를 고사양 서버에 보내서 처리하고, 결과를 다시 스토리지에 저장하는 방법밖에 없었다.

    이 방식은 현실성과 비용 효율성이 떨어지게 되었다.

     

    기존 기술도 다수의 서버에서 실행도리 수 있지만, 분산된 컴포넌트 사이의 커뮤니케이션에 크게 의존해야 했는데, 이런 방식은 임달의 법칙에 따라 병렬성이 증가할수록 효율은 떨어지게 된다.

    하지만 설계부터 분산이 고려된 새로운 방식에서는, 분산된 작은 데이터 조각에 대한 연산이 다수의 서버에서 독립적으로 분산 처리되므로 확장성 문제를 자연스럽게 극복할 수 있다. 서버를 추가하면 슽노리지 및 연산력을 확장할 수 있는데, 이를 수평 확장 가능한 아키텍처라고 한다.

    * 클러스터란?: 저장이나 연산 등 하나 이상의 기능을 제공하기 위해 협력하는 서버의 조합.

    하둡 에코시스템 둘러보기

    하둡 에코시스템의 각 프로젝트는 서로 다른 방식의 의존 관계를 가지고 있지만 주로 데이터와 제어, 두 가지로 구분할 수 있다.

    데이터 관점에서는 데이터 읽기와 쓰기를 중심으로 외존 관계가 구성되고, 제어 관점에서는 메타데이터나 협력 중심으로 의존 관계가 구성된다. 

    댓글

Designed by Tistory.