분류 전체보기
-
[빅데이터 전문가의 하둡관리] 4. 완전 분산 클러스터 계획하고 만들기Software Development/Big Data 2022. 10. 3. 00:00
http://www.kyobobook.co.kr/product/detailViewKor.laf?mallGb=KOR&ejkGb=KOR&barcode=9788931555752 빅데이터 전문가의 하둡 관리 - 교보문고 스파크 얀 HDFS 관리, 튜닝 및 보안 비법 대공개! | 빅데이터 전문가의 하둡 관리 데이터 양이 많은 페이스북같은 기업에서 서버의 트래픽이 몰리지 않고 사용자가 빠른 피드백을 받도록 하려면? www.kyobobook.co.kr 위 책의 내용을 읽으며 공부한 내용을 요약 및 정리한 글입니다. 자세한 내용은 위 책에서 알 수 있습니다. 하둡 클러스터 계획하기 클러스터를 계획할 때 일반적으로 고려해야 할 것들 마스터 서비스는 네임노드, 리소스매니저, 저널노드 그리고 잡히스토리서버들이다. 저널노드는..
-
[빅데이터 전문가의 하둡관리] 3. 간단한 하둡 클러스터 생성 및 환경 설정Software Development/Big Data 2022. 9. 25. 20:19
http://www.kyobobook.co.kr/product/detailViewKor.laf?mallGb=KOR&ejkGb=KOR&barcode=9788931555752 빅데이터 전문가의 하둡 관리 - 교보문고 스파크 얀 HDFS 관리, 튜닝 및 보안 비법 대공개! | 빅데이터 전문가의 하둡 관리 데이터 양이 많은 페이스북같은 기업에서 서버의 트래픽이 몰리지 않고 사용자가 빠른 피드백을 받도록 하려면? www.kyobobook.co.kr 위 책의 내용을 읽으며 공부한 내용을 요약 및 정리한 글입니다. 자세한 내용은 위 책에서 알 수 있습니다. 이번에는 가상 분산 하둡 클러스터 설치 및 설정을 통해 하둡 클러스터를 적절하게 설치하고 설정하는 방법을 이해한다. 이를 통해서 하둡 시스템의 환경 설정을 마스터..
-
[빅데이터 전문가의 하둡관리] 2. 하둡 아키텍처 개요Software Development/Big Data 2022. 8. 31. 21:22
http://www.kyobobook.co.kr/product/detailViewKor.laf?mallGb=KOR&ejkGb=KOR&barcode=9788931555752 빅데이터 전문가의 하둡 관리 - 교보문고 스파크 얀 HDFS 관리, 튜닝 및 보안 비법 대공개! | 빅데이터 전문가의 하둡 관리 데이터 양이 많은 페이스북같은 기업에서 서버의 트래픽이 몰리지 않고 사용자가 빠른 피드백을 받도록 하려면? www.kyobobook.co.kr 위 책의 내용을 읽으며 공부한 내용을 요약 및 정리한 글입니다. 자세한 내용은 위 책에서 알 수 있습니다. 분산 컴퓨팅과 하둡 분산 컴퓨팅은 다음과 같은 필요조건들을 충족시키고자 한다. 확장성: 머신 수가 증가함에 따라 컴퓨팅 능력과 스토리지 공간이 선형적으로 증가해야..
-
[빅데이터 전문가의 하둡관리] 1. 하둡 소개 및 하둡의 주변 환경Software Development/Big Data 2022. 8. 20. 18:15
http://www.kyobobook.co.kr/product/detailViewKor.laf?mallGb=KOR&ejkGb=KOR&barcode=9788931555752 빅데이터 전문가의 하둡 관리 - 교보문고 스파크 얀 HDFS 관리, 튜닝 및 보안 비법 대공개! | 빅데이터 전문가의 하둡 관리 데이터 양이 많은 페이스북같은 기업에서 서버의 트래픽이 몰리지 않고 사용자가 빠른 피드백을 받도록 하려면? www.kyobobook.co.kr 위 책의 내용을 읽으며 공부한 내용을 요약 및 정리한 글입니다. 자세한 내용은 위 책에서 알 수 있습니다. 하둡과 하둡의 생태계에 대한 개요 하둡은 빅데이터를 다루기 위해 만들어졌다. 하둡은 대부분 리눅스에서 운영된다. 하둡은 직접 설치 또는 특정 회사의 하둡 배포판을..
-
[Data Pipelines with Apache Airflow] 3. Airflow의 스케줄링Software Development/Data Engineering 2022. 8. 2. 21:00
해당 블로그의 내용은 책(Apache Airflow 기반의 데이터 파이프라인)을 요약 정리한 것입니다. 3.3 데이터 증분 처리하기 스케줄된 하나의 작업에서 처리해야 할 데이터 양을 크게 줄일 수 있기 때문에 전체 데이터 셋을 처리하는 것보다 효율적인 방식. 3.3.2 실행 날짜를 사용하여 동적 시간 참조하기 Airflow는 태스크가 실행되는 특정 간격을 정의할 수 있는 추가 매개변수를 제공. execution_date: DAG가 실행되는 날짜와 시간. 매개변수 이름과 달리 execution_date는 DAG를 시작하는 시간의 특정 날짜가 아니라 스케줄 간격으로 실행되는 시작 시간을 나타내는 타임스탬프. 3.3.3 데이터 파티셔닝 데이터 세트를 더 작고 관리하기 쉬운 조각으로 나누는 작업은 데이터 저장 ..
-
[Data Pipelines with Apache Airflow] 2. Airflow DAG의 구조Software Development/Data Engineering 2022. 8. 1. 21:00
해당 블로그의 내용은 책(Apache Airflow 기반의 데이터 파이프라인)을 요약 정리한 것입니다. 2.2.1 태스크와 오퍼레이터 차이점 오퍼레이터는 단일 작업 수행 역할. 오퍼레이터와 task는 거의 같은 의미를 가지지만, 태스크는 작업의 올바른 실행을 보장하기 위한 오퍼레이터의 wrapper 또는 manager. 2.3 Airflow에서 DAG 실행하기 Airflow는 스케줄러, 웹 서버, 데이터베이스의 세 가지 핵심 컴포넌트로 구성. Airflow 설치 pip install apache-airflow Airflow를 설치 후 메타스토어 초기화, 사용자 생성, DAG 폴더에 DAG 복사, 스케줄러 및 웹서버 시작. 1. airflow db init 2. airflow users create --u..
-
[Docker] E: Unable to locate package 이슈.Software Development/Ops 2022. 7. 21. 20:32
일반적으로 apt을 통해서 패키지를 설치할 때, E: Unable to locate package 에러가 발생하게 된다면, # 아래의 명렁어 또는 sudo apt-get update apt-get update 위 명령을 통해 해결 가능하다. 그러나 Docker 환경에서 위 명령을 통해서도 해결되지 않은 경우가 발생했다. 찾아보니, 도커 캐싱으로 인해, Dockerfile의 Command를 재처리하지 못하게 되는 것이다. 예를 들어 unzip을 설치하다가 위 명령어로도 E: Unable to locate package가 계속해서 발생할 경우. Dockerfile에서 아래와 같이 수정하여 캐싱 무효화하여 처리할 수 있으며 apt-get update && apt-get install unzip 아래와 같이 실..
-
[Data Pipelines with Apache Airflow] 1. Apache Airflow 살펴보기Software Development/Data Engineering 2022. 6. 22. 00:19
해당 블로그의 내용은 책(Apache Airflow 기반의 데이터 파이프라인)을 요약 정리한 것입니다. Airflow의 주요 기능은 유연한 파이썬 프레임워크를 사용해 쉽게 데이터 파이프라인을 구축할 수 있게 해 주며, 최신 기술 환경에서 접하게되는 서로 다른 기술들을 연결. 1.1 데이터 파이프라인 소개 1.1.1 데이터 파이프라인 그래프 DAG 방향성 비순환 그래프, 방향이 있는데 순환은 안하는 그래프. 비순환 속성은 태스크 간의 순환 실행을 방지. 순환 의존성은 논리적 오류로 인한 교착상태로 이어질 수 있다. 1.1.2 파이프라인 그래프 실행 DAG는 파이프라인 실행을 위한 단순한 알고리즘을 제공한다는 이점을 제공. 1. 그래프 안에 태스크는 각각 개방된 상태(미완료)이며 다음과 같은 단계를 수행. ..