Software Development/Big Data
[스파크 완벽 가이드] 1. 아파치 스파크란
루ㅌ
2022. 5. 8. 17:43
1.1 아파치 스파크의 철학
통합
빅데이터 애플리케이션 개발에 필요한 통합 플랫폼을 제공하자. 간단한 데이터 읽기, SQL 처리, ML, 스트림 처리까지 데이터 분석 작업을 같은 연산 엔진과 일관성 있는 API로 수행할 수 있도록 설계.
컴퓨팅 엔진
스파크는 데이터 저장소 시스템의 데이터를 연산하는 역할만 수행할 뿐 영구 저장소 역할은 수해하지 않는다. 데이터 이동은 높은 비용을 유발한다(가장 크게 영향을 받는 자원은 네트워크).
라이브러리
다양한 외부 라이브러리를 지원한다.
1.2 스파크의 등장 배경
하드웨어 성능 향상이 멈췄다(2005년). 애플리케이션 성능 향상을 위해 병렬 처리가 필요했다.
1.3 스파크의 역사
UC버클리에서 2009년 스파크 연구 프로젝트로 시작.