ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [엔터프라이즈 데이터 플랫폼 구축] 0. 들어가며
    Software Development/Data Platform 2022. 1. 15. 19:07

    엔터프라이즈 데이터 플랫폼 구축을 읽고 요약, 정리 및 개인적인 의견을 담기위해 이 글을 씁니다.

     

    여는 글

    1960년대부터 분산 스토리지와 연산에 대해 학계와 업계는 연구해왔다. 그러나 실존적이고 실용적이며 유용하고, 대용량 확장성을 지원하면서도 안정적인 시스템은 구글이 인터넷 문제를 직면하면서 등장했다. 당시에는 전체 웹을 수집해서 인덱싱하고 분석하기란 불가능했다.

     

    GFS와 MapReduce 프레임워크에 대한 연구가 빅데이터 산업을 만들어냈다. 이는 더그 커팅과 마이크 카파렐라의 오픈 소스 하둡 프로젝트의 발현으로 이어졌다. 이제는 S3 같은 클라우드 스토리지를 비롯해 IoT환경과 데이터 분석을 위한 아파치 쿠두 등이 생겨났다.

    들어가며

    규모: 모던 데이터 플랫폼에 모든 데이터를 저장하고 나중에 필요할 때 새로운 결정을 내리는 편이 낫다. 왜냐하면 잘못된 결정이 오래 지속되면 결국은 더 높은 비용을 지불하게 된다.

    속도: 하루 단위의 일괄 처리로 분석용 데이터를 만드는 시대는 끝났다. 스트리밍 데이터를 처리하기 위한 새로운 방법이 필요하다.

    다양성: 다양한 통찰력을 얻기 위해서는 모든 구조의 데이터를 저장하는 것이 바람직하고 이를 저장하고 처리하는 기술을 도입해 통합된 단일 플랫폼을 구축하는 것은 기본이다.

    경쟁력: 연산 플랫폼은 온프레미스, 클라우드를 가리지 않고 모두 지원해야 하며, 데이터 사이언스, ML, DL 등의 장점을 비즈니스에 접목할 수 있어야 한다.

    데이터 플랫폼과 하둡에 대한 몇가지 오해 

    하둡의 데이터는 스키마가 없다: 데이터를 원형 그대로 저장한 후, 처리하고 변형하며 다른 데이터 원본과 결합해 최선의 형태와 구조를 만들어 낸다. 스키마 온 리드이다.

    데이터의 유일한 사본: 데이터에 대한 접근 패턴은 데이터 활용 사례에 따라 다르다. 같은 데이터셋이라 하더라도 다른 스토리지 엔진에 다른 방식으로 저장하는 경우가 대부분이다. 각 스토리지 엔진이 제공하는 다양한 최적화를 생각한다면 합리적인 결론이다. 데이터 중복은 당연한 것이다.

    거대한 하나의 클러스터: 하둡은 멀티테넌시를 지원하지만, 제한된 자원으로 모든 요구사항을 항상 만족시킬 수 없다.

    보편적인 트렌드

    수평적 확장: 강력한 머신들을 수직적으로 확장하는 것보다는 보급형 서버로 구성된 분산 클러스터를 이용한 수평 확장이 올바른 방법이다. 딥러닝 같은 일부 작업은 분산과 병렬화가 더 어렵기는 하지만, 클러스터의 장점을 이용해 처리할 수 있다.

    오픈 소스 채택: 투명성과 데이터의 자유라는 장점

    클라우드 도입: 온프레미스에 비해 신속성 확장성 성능 면에서 상당한 장점을 제공한다. 모던 데이터 플랫폼은 클라우드 온프레미스 등에서 배포해서 길행할 수 있어야 한다.

    분리된 연산과 스토리지: 데이터 활용 방식이 디스크의 대역폭에 의해 제한을 받던 처음 몇 년간은 하둡 클러스터는 거의 무조건적으로 스토리지에 직접 연결했다. 하지만 고효율의 네트워크 기반 스토리지 시스템에 영구적 데이터 저장이 가능해 연산과 스토리지의 독립적인 확장이 가능해졌다.

    이  책의 목적

    하둡 및 데이터 플랫폼과 관련한 자료는 넘쳐나지만, 하둡 클러스터를 기업 환경에 성공적으로 융합하는 것과 관련된 콘텐츠를 충분하지 않다.

    댓글

Designed by Tistory.