Software Development/Big Data
-
[빅데이터 전문가의 하둡관리] 3. 간단한 하둡 클러스터 생성 및 환경 설정Software Development/Big Data 2022. 9. 25. 20:19
http://www.kyobobook.co.kr/product/detailViewKor.laf?mallGb=KOR&ejkGb=KOR&barcode=9788931555752 빅데이터 전문가의 하둡 관리 - 교보문고 스파크 얀 HDFS 관리, 튜닝 및 보안 비법 대공개! | 빅데이터 전문가의 하둡 관리 데이터 양이 많은 페이스북같은 기업에서 서버의 트래픽이 몰리지 않고 사용자가 빠른 피드백을 받도록 하려면? www.kyobobook.co.kr 위 책의 내용을 읽으며 공부한 내용을 요약 및 정리한 글입니다. 자세한 내용은 위 책에서 알 수 있습니다. 이번에는 가상 분산 하둡 클러스터 설치 및 설정을 통해 하둡 클러스터를 적절하게 설치하고 설정하는 방법을 이해한다. 이를 통해서 하둡 시스템의 환경 설정을 마스터..
-
[빅데이터 전문가의 하둡관리] 2. 하둡 아키텍처 개요Software Development/Big Data 2022. 8. 31. 21:22
http://www.kyobobook.co.kr/product/detailViewKor.laf?mallGb=KOR&ejkGb=KOR&barcode=9788931555752 빅데이터 전문가의 하둡 관리 - 교보문고 스파크 얀 HDFS 관리, 튜닝 및 보안 비법 대공개! | 빅데이터 전문가의 하둡 관리 데이터 양이 많은 페이스북같은 기업에서 서버의 트래픽이 몰리지 않고 사용자가 빠른 피드백을 받도록 하려면? www.kyobobook.co.kr 위 책의 내용을 읽으며 공부한 내용을 요약 및 정리한 글입니다. 자세한 내용은 위 책에서 알 수 있습니다. 분산 컴퓨팅과 하둡 분산 컴퓨팅은 다음과 같은 필요조건들을 충족시키고자 한다. 확장성: 머신 수가 증가함에 따라 컴퓨팅 능력과 스토리지 공간이 선형적으로 증가해야..
-
[빅데이터 전문가의 하둡관리] 1. 하둡 소개 및 하둡의 주변 환경Software Development/Big Data 2022. 8. 20. 18:15
http://www.kyobobook.co.kr/product/detailViewKor.laf?mallGb=KOR&ejkGb=KOR&barcode=9788931555752 빅데이터 전문가의 하둡 관리 - 교보문고 스파크 얀 HDFS 관리, 튜닝 및 보안 비법 대공개! | 빅데이터 전문가의 하둡 관리 데이터 양이 많은 페이스북같은 기업에서 서버의 트래픽이 몰리지 않고 사용자가 빠른 피드백을 받도록 하려면? www.kyobobook.co.kr 위 책의 내용을 읽으며 공부한 내용을 요약 및 정리한 글입니다. 자세한 내용은 위 책에서 알 수 있습니다. 하둡과 하둡의 생태계에 대한 개요 하둡은 빅데이터를 다루기 위해 만들어졌다. 하둡은 대부분 리눅스에서 운영된다. 하둡은 직접 설치 또는 특정 회사의 하둡 배포판을..
-
[스파크 완벽 가이드] 1. 아파치 스파크란Software Development/Big Data 2022. 5. 8. 17:43
1.1 아파치 스파크의 철학 통합 빅데이터 애플리케이션 개발에 필요한 통합 플랫폼을 제공하자. 간단한 데이터 읽기, SQL 처리, ML, 스트림 처리까지 데이터 분석 작업을 같은 연산 엔진과 일관성 있는 API로 수행할 수 있도록 설계. 컴퓨팅 엔진 스파크는 데이터 저장소 시스템의 데이터를 연산하는 역할만 수행할 뿐 영구 저장소 역할은 수해하지 않는다. 데이터 이동은 높은 비용을 유발한다(가장 크게 영향을 받는 자원은 네트워크). 라이브러리 다양한 외부 라이브러리를 지원한다. 1.2 스파크의 등장 배경 하드웨어 성능 향상이 멈췄다(2005년). 애플리케이션 성능 향상을 위해 병렬 처리가 필요했다. 1.3 스파크의 역사 UC버클리에서 2009년 스파크 연구 프로젝트로 시작.
-
[Spark] 튜닝, 디버깅, 그리고 개발자가 신경 쓰지 않는 것들Software Development/Big Data 2021. 3. 28. 20:00
스파크 튜닝과 클러스터 사이징 대부분의 스파크 세팅은 애플리케이션 수준에서만 조정이 가능하다. 이러한 세팅들은 작업 속도와 완료 여부에 큰 영향을 끼친다. 스파크의 기본 세팅은 작은 크기의 클러스터에서도 동작할 수 있도록 맞춰진 것이며 실제 업무용으로는 추천하지 않는다. 세팅들은 가용한 자원의 활용성을 높이고 작업을 완료할 수 있는 수준의 최적화를 위해 자주 변경될 것이다. 스파크는 환경 설정을 위해 여러 가지의 제어 항목을 제공하는데, 익스큐터의 메모리 부족 오류가 스파크 작업이 실패하는 일반적인 이유 중의 하나이다. 물론 데이터가 편향적이거나 셔플을 줄이는 등의 기술적인 부분에 집중하는 것이 최선이기는 하나, 메모리가 큰 익스큐터를 더 적게 쓰는 것이 실패를 막아 주기도 한다. 스파크 잡의 설정을 선..
-
[Spark] 효율적인 트랜스포메이션Software Development/Big Data 2021. 2. 14. 19:52
효율적인 트랜스포메이션 스파크 성능의 상당 부분은 데이터 변형 능력, RDD를 반환하는 연산에서 나온다. 좁은 트랜스포메이션 vs. 넓은 트랜스포메이션 트랜스포메이션이 넓은지 혹은 좁은지 어떻게 구분하는지, 이 구분 기준이 왜 평가와 성능에 영향을 끼치는지 알아본다. 넓은 트랜스포메이션 -> 셔플 요구, 좁은 트랜스포메이션 -> 셔플 요구 X 좁은 종속성의 트랜스포메이션: 부모 RDD의 각 파티션이 자식 RDD의 최대 하나의 파티션에 의해 사용되는 것[1] 자식 RDD의 종속성에 따라 좁고 넓은 종속성을 정의(2장) vs 부모 RDD의 종속성 위주로 좁고 넓은 종속성을 정의[1] 스파크 평가 엔진(DAG): 출력(액션) -> 입력 RDD로 실행 계획을 역으로 구축 좁은 종속성: 부모파티션은 오직 하나, ..
-
Hadoop WordCount 소스 코드 레벨에서 살펴보기Software Development/Big Data 2020. 7. 1. 13:08
코드출처: https://hadoop.apache.org/docs/current/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduceTutorial.html import java.io.IOException; // 예외처리 import java.util.StringTokenizer; //스트링 토큰 처리기 import org.apache.hadoop.conf.Configuration; // 하둡 구성 정보 import org.apache.hadoop.fs.Path; // 파일 시스템 경로 import org.apache.hadoop.io.IntWritable; // 정수형 쓰기 가능 데이터 삽입 import org.apache.hadoop.io.T..
-
hadoop wordcount 예제 eclilpse maven build 시 발생하는 오류Software Development/Big Data 2020. 7. 1. 12:33
우선 maven build 전 maven clean을 해주셔야 합니다. 플젝 우클릭 'Run As' 에 Maven clean을 클릭하시면 됩니다. 그리고 maven build를 했지만 아래와 같은 에러를 만났습니다. No goals have been specified for this build. You must specify a valid lifecycle phase or a goal in the format : or :[:]:. Available lifecycle phases are: validate, initialize, generate-sources, process-sources, generate-resources, process-resources, compile, process-classes, g..