airflow spark2 airflow에서 remote spark cluster에 job submit 하기: SparkSubmitOperator airflow에서 SparkSubmitOperator와 task decorator를 사용해 remote spark cluster에 job을 submit하는 방법을 알아본다.spark on yarn 환경으로 spark 3.3.2, hadoop 3이 설치되어 있다. 1. spark binary 다운로드airflow에서 remote spark에 job을 submit 하기 위해서는 airflow가 설치된 서버에 spark-submit 호출이 가능해야 한다.이를 위해 spark binary를 다운받아 spark-submit이 가능하도록 했다.spark 3.3.2, hadoop 3을 사용하고 있어 spark-3.3.2-bin-hadoop3를 다운받았다.## binary 다운로드wget https://archive... 2024. 9. 3. airflow 외부 시스템 이용하기 -1 : DockerOperator, KubernetesPodOperator, SparkKubernetesOperator(SKO) airflow에서 docker, kubernetes, spark 등의 외부 시스템을 이용하는 방법을 설명한다.1. 원격 docker daemon과 연동하기원격 docker daemon에 연동하기 위해서는 우선 docker 관련 설정이 필요하다.docker 서버(daemon) 설정과 docker client(airflow 서버) 설정으로 구분할 수 있다. docker 서버 설정 (docker daemon에서 진행)우선 docker daemon을 원격 접속할 수 있도록 설정한다. daemon.json과 docker.service 파일을 수정해야한다. vi /etc/docker/daemon.json{ "exec-opts": ["native.cgroupdriver=systemd"], "hosts": ["tc.. 2024. 8. 17. 이전 1 다음 반응형