[스파크 완벽 가이드] 1. 아파치 스파크란

Software Development/Big Data 2022. 5. 8. 17:43

빅데이터 애플리케이션 개발에 필요한 통합 플랫폼을 제공하자. 간단한 데이터 읽기, SQL 처리, ML, 스트림 처리까지 데이터 분석 작업을 같은 연산 엔진과 일관성 있는 API로 수행할 수 있도록 설계.

스파크는 데이터 저장소 시스템의 데이터를 연산하는 역할만 수행할 뿐 영구 저장소 역할은 수해하지 않는다. 데이터 이동은 높은 비용을 유발한다(가장 크게 영향을 받는 자원은 네트워크).

다양한 외부 라이브러리를 지원한다.

하드웨어 성능 향상이 멈췄다(2005년). 애플리케이션 성능 향상을 위해 병렬 처리가 필요했다.

UC버클리에서 2009년 스파크 연구 프로젝트로 시작.

[빅데이터 전문가의 하둡관리] 2. 하둡 아키텍처 개요 (1)	2022.08.31
[빅데이터 전문가의 하둡관리] 1. 하둡 소개 및 하둡의 주변 환경 (0)	2022.08.20
[Spark] 튜닝, 디버깅, 그리고 개발자가 신경 쓰지 않는 것들 (2)	2021.03.28
[Spark] 효율적인 트랜스포메이션 (0)	2021.02.14
Hadoop WordCount 소스 코드 레벨에서 살펴보기 (0)	2020.07.01

DE 개발일지 DE 개발일지