Software Development/Data Platform
-
[엔터프라이즈 데이터 플랫폼 구축] 1. 빅데이터 기술 기초 다지기Software Development/Data Platform 2022. 1. 15. 19:30
엔터프라이즈 데이터 플랫폼 구축을 읽고 요약, 정리 및 개인적인 의견을 담기위해 이 글을 씁니다. 하둡에 영감을 준 구글에서 발행한 논문들의 내용을 보면 이런 시스템을 만들게 된 이유는 순수하게 정말로 필요했기 때문이었다. 당시에는 이런 기술이 아예 존재하지 않았다. 대규모 데이터를 처리하려면 다수의 프로세서와 다수의 메모리를 장학한 소수의 고사양 서버를 도입하고, NAS나 SAN에 저장된 데이터를 고사양 서버에 보내서 처리하고, 결과를 다시 스토리지에 저장하는 방법밖에 없었다. 이 방식은 현실성과 비용 효율성이 떨어지게 되었다. 기존 기술도 다수의 서버에서 실행도리 수 있지만, 분산된 컴포넌트 사이의 커뮤니케이션에 크게 의존해야 했는데, 이런 방식은 임달의 법칙에 따라 병렬성이 증가할수록 효율은 떨어지..
-
[엔터프라이즈 데이터 플랫폼 구축] 0. 들어가며Software Development/Data Platform 2022. 1. 15. 19:07
엔터프라이즈 데이터 플랫폼 구축을 읽고 요약, 정리 및 개인적인 의견을 담기위해 이 글을 씁니다. 여는 글 1960년대부터 분산 스토리지와 연산에 대해 학계와 업계는 연구해왔다. 그러나 실존적이고 실용적이며 유용하고, 대용량 확장성을 지원하면서도 안정적인 시스템은 구글이 인터넷 문제를 직면하면서 등장했다. 당시에는 전체 웹을 수집해서 인덱싱하고 분석하기란 불가능했다. GFS와 MapReduce 프레임워크에 대한 연구가 빅데이터 산업을 만들어냈다. 이는 더그 커팅과 마이크 카파렐라의 오픈 소스 하둡 프로젝트의 발현으로 이어졌다. 이제는 S3 같은 클라우드 스토리지를 비롯해 IoT환경과 데이터 분석을 위한 아파치 쿠두 등이 생겨났다. 들어가며 규모: 모던 데이터 플랫폼에 모든 데이터를 저장하고 나중에 필요할..