Software Development/Data Engineering
[Data Pipelines with Apache Airflow] 2. Airflow DAG의 구조
루ㅌ
2022. 8. 1. 21:00
해당 블로그의 내용은 책(Apache Airflow 기반의 데이터 파이프라인)을 요약 정리한 것입니다.
2.2.1 태스크와 오퍼레이터 차이점
오퍼레이터는 단일 작업 수행 역할. 오퍼레이터와 task는 거의 같은 의미를 가지지만, 태스크는 작업의 올바른 실행을 보장하기 위한 오퍼레이터의 wrapper 또는 manager.
2.3 Airflow에서 DAG 실행하기
Airflow는 스케줄러, 웹 서버, 데이터베이스의 세 가지 핵심 컴포넌트로 구성.
Airflow 설치
pip install apache-airflow
Airflow를 설치 후 메타스토어 초기화, 사용자 생성, DAG 폴더에 DAG 복사, 스케줄러 및 웹서버 시작.
1. airflow db init
2. airflow users create --username admin --password admin --firstname Anonymous --lastname Admin --role Admin --email admin@example.org
3. cp test.py ~/airflow/dags/
4. airflow webserber
5. airflow scheduler
2.4 스케줄 간격으로 실행하기
DAG에서 schedule_interval의 인수로 설정
dag=Dag(
dag_id="test",
start_date=airflow.utils.dates.days_ago(14),
schedule_interval="@daily",
)