SPARK
-
[Spark] 튜닝, 디버깅, 그리고 개발자가 신경 쓰지 않는 것들Software Development/Big Data 2021. 3. 28. 20:00
스파크 튜닝과 클러스터 사이징 대부분의 스파크 세팅은 애플리케이션 수준에서만 조정이 가능하다. 이러한 세팅들은 작업 속도와 완료 여부에 큰 영향을 끼친다. 스파크의 기본 세팅은 작은 크기의 클러스터에서도 동작할 수 있도록 맞춰진 것이며 실제 업무용으로는 추천하지 않는다. 세팅들은 가용한 자원의 활용성을 높이고 작업을 완료할 수 있는 수준의 최적화를 위해 자주 변경될 것이다. 스파크는 환경 설정을 위해 여러 가지의 제어 항목을 제공하는데, 익스큐터의 메모리 부족 오류가 스파크 작업이 실패하는 일반적인 이유 중의 하나이다. 물론 데이터가 편향적이거나 셔플을 줄이는 등의 기술적인 부분에 집중하는 것이 최선이기는 하나, 메모리가 큰 익스큐터를 더 적게 쓰는 것이 실패를 막아 주기도 한다. 스파크 잡의 설정을 선..