-
[Data Pipelines with Apache Airflow] 2. Airflow DAG의 구조Software Development/Data Engineering 2022. 8. 1. 21:00
해당 블로그의 내용은 책(Apache Airflow 기반의 데이터 파이프라인)을 요약 정리한 것입니다.
2.2.1 태스크와 오퍼레이터 차이점
오퍼레이터는 단일 작업 수행 역할. 오퍼레이터와 task는 거의 같은 의미를 가지지만, 태스크는 작업의 올바른 실행을 보장하기 위한 오퍼레이터의 wrapper 또는 manager.
2.3 Airflow에서 DAG 실행하기
Airflow는 스케줄러, 웹 서버, 데이터베이스의 세 가지 핵심 컴포넌트로 구성.
Airflow 설치
pip install apache-airflow
Airflow를 설치 후 메타스토어 초기화, 사용자 생성, DAG 폴더에 DAG 복사, 스케줄러 및 웹서버 시작.
1. airflow db init 2. airflow users create --username admin --password admin --firstname Anonymous --lastname Admin --role Admin --email admin@example.org 3. cp test.py ~/airflow/dags/ 4. airflow webserber 5. airflow scheduler
2.4 스케줄 간격으로 실행하기
DAG에서 schedule_interval의 인수로 설정
dag=Dag( dag_id="test", start_date=airflow.utils.dates.days_ago(14), schedule_interval="@daily", )
'Software Development > Data Engineering' 카테고리의 다른 글
[Spark] Spark JDBC와 하이브 연동 이슈들. (0) 2023.05.05 [Hive] 하이브 테이블에 Spark으로 적재 시, HQL로 읽을 때, 값이 Null로 조회되는 이슈. (0) 2023.05.02 [Data Pipelines with Apache Airflow] 3. Airflow의 스케줄링 (0) 2022.08.02 [Data Pipelines with Apache Airflow] 1. Apache Airflow 살펴보기 (0) 2022.06.22 대용량 데이터를 수집하기 위한 생산성있는 웹 크롤러의 구조 (0) 2020.11.05