Software Development/Big Data
-
-
[Hadoop] 하둡 관련 default 설정 파일Software Development/Big Data 2022. 12. 15. 03:00
하둡 관련 프로그램 설치시 가장 많이 참고하게 되는 사이트가 docs이다. 하둡을 구축하는 환경은 달라, 발생하는 이슈가 다를 수 있지만 default.xml에는 꽤 많은 해결책들이 들어있다. 시간될 때, 어떤 설정들이 있는지 참고하면, 도움이 된다. 큰 맥락에서 비슷한 설정들이 많기 때문에 여러본 보다보니 제법 도움이 된다. 예를 들어, 리소스매니저가 컨테이너 환경에서 실행될 때, 웹 UI접근이 컨테이너 환경 내부에서만 접근가능하고, 호스트에서는 접근이 안되는 문제가 있었다. 해당 문제는 yarn.resourcemanager.bind-host를 0.0.0.0으로 설정하면 해결됐었고, 이는 dfs.namenode.http-bind-host와 기능이 같은 설정이었다. dfs.namenode.http-bin..
-
[빅데이터 전문가의 하둡관리] 8. 네임노드의 역할과 HDFS의 동작 방식Software Development/Big Data 2022. 10. 30. 00:00
http://www.kyobobook.co.kr/product/detailViewKor.laf?mallGb=KOR&ejkGb=KOR&barcode=9788931555752 빅데이터 전문가의 하둡 관리 - 교보문고 스파크 얀 HDFS 관리, 튜닝 및 보안 비법 대공개! | 빅데이터 전문가의 하둡 관리 데이터 양이 많은 페이스북같은 기업에서 서버의 트래픽이 몰리지 않고 사용자가 빠른 피드백을 받도록 하려면? www.kyobobook.co.kr 위 책의 내용을 읽으며 공부한 내용을 요약 및 정리한 글입니다. 자세한 내용은 위 책에서 알 수 있습니다. 네임노드와 데이터노드 간의 상호 연결에 대한 설명을 시작으로 클라이언트 간 HDFS에 데이터를 읽고 쓰는 방식 뒤에 숨겨진 이론까지 논의한다. 그 후, HDFS의..
-
[빅데이터 전문가의 하둡관리] 7. 스파크 애플리케이션 실행하기Software Development/Big Data 2022. 10. 23. 00:00
http://www.kyobobook.co.kr/product/detailViewKor.laf?mallGb=KOR&ejkGb=KOR&barcode=9788931555752 빅데이터 전문가의 하둡 관리 - 교보문고 스파크 얀 HDFS 관리, 튜닝 및 보안 비법 대공개! | 빅데이터 전문가의 하둡 관리 데이터 양이 많은 페이스북같은 기업에서 서버의 트래픽이 몰리지 않고 사용자가 빠른 피드백을 받도록 하려면? www.kyobobook.co.kr 위 책의 내용을 읽으며 공부한 내용을 요약 및 정리한 글입니다. 자세한 내용은 위 책에서 알 수 있습니다. 스파크 프로그래밍 모델 스파크 프로그래밍과 RDD 스파크 프로세싱의 정수는 RDD다. RDD는 분산 저장된 엘리먼트나 객체들의 집합이다. 스파크에서 하는 모든 작..
-
[빅데이터 전문가의 하둡관리] 6. 클러스터에서 애플리케이션 실행하기 - 스파크 프레임워크Software Development/Big Data 2022. 10. 16. 00:00
http://www.kyobobook.co.kr/product/detailViewKor.laf?mallGb=KOR&ejkGb=KOR&barcode=9788931555752 빅데이터 전문가의 하둡 관리 - 교보문고 스파크 얀 HDFS 관리, 튜닝 및 보안 비법 대공개! | 빅데이터 전문가의 하둡 관리 데이터 양이 많은 페이스북같은 기업에서 서버의 트래픽이 몰리지 않고 사용자가 빠른 피드백을 받도록 하려면? www.kyobobook.co.kr 위 책의 내용을 읽으며 공부한 내용을 요약 및 정리한 글입니다. 자세한 내용은 위 책에서 알 수 있습니다. 스파크는 무엇인가? 스파크의 목표는 인터랙티브하고 반복적인 컴퓨팅을 하는 데 있어 맵리듀 모델이 갖고 있는 비효율성을 극복하는 것이다. 왜 스파크인가? 맵리듀스는..
-
[빅데이터 전문가의 하둡관리] 5. 클러스터에서 애플리케이션 실행하기Software Development/Big Data 2022. 10. 10. 00:00
http://www.kyobobook.co.kr/product/detailViewKor.laf?mallGb=KOR&ejkGb=KOR&barcode=9788931555752 빅데이터 전문가의 하둡 관리 - 교보문고 스파크 얀 HDFS 관리, 튜닝 및 보안 비법 대공개! | 빅데이터 전문가의 하둡 관리 데이터 양이 많은 페이스북같은 기업에서 서버의 트래픽이 몰리지 않고 사용자가 빠른 피드백을 받도록 하려면? www.kyobobook.co.kr 위 책의 내용을 읽으며 공부한 내용을 요약 및 정리한 글입니다. 자세한 내용은 위 책에서 알 수 있습니다. 맵리듀스 프레임워크 맵리듀스가 스파크와 같은 프로세싱 프레임워크로 대체되기는 하겠지만, 대부분의 하둡 클러스터에서는 아직도 수많은 맵리듀스와 피그/하이브 코드가 ..
-
[빅데이터 전문가의 하둡관리] 4. 완전 분산 클러스터 계획하고 만들기Software Development/Big Data 2022. 10. 3. 00:00
http://www.kyobobook.co.kr/product/detailViewKor.laf?mallGb=KOR&ejkGb=KOR&barcode=9788931555752 빅데이터 전문가의 하둡 관리 - 교보문고 스파크 얀 HDFS 관리, 튜닝 및 보안 비법 대공개! | 빅데이터 전문가의 하둡 관리 데이터 양이 많은 페이스북같은 기업에서 서버의 트래픽이 몰리지 않고 사용자가 빠른 피드백을 받도록 하려면? www.kyobobook.co.kr 위 책의 내용을 읽으며 공부한 내용을 요약 및 정리한 글입니다. 자세한 내용은 위 책에서 알 수 있습니다. 하둡 클러스터 계획하기 클러스터를 계획할 때 일반적으로 고려해야 할 것들 마스터 서비스는 네임노드, 리소스매니저, 저널노드 그리고 잡히스토리서버들이다. 저널노드는..