워크플로 오케스트레이션 매니저란?
적용 대상: Azure Data Factory Azure Synapse Analytics
팁
기업용 올인원 분석 솔루션인 Microsoft Fabric의 Data Factory를 사용해 보세요. Microsoft Fabric은 데이터 이동부터 데이터 과학, 실시간 분석, 비즈니스 인텔리전스 및 보고에 이르기까지 모든 것을 다룹니다. 무료로 새 평가판을 시작하는 방법을 알아봅니다!
참고 항목
Apache Airflow는 이제 Microsoft Fabric을 통해 액세스할 수 있습니다. Microsoft Fabric은 데이터 워크플로를 통해 광범위한 Apache Airflow 기능을 제공합니다. 더 광범위한 기능을 활용하려면 기존 워크플로 오케스트레이션 매니저(ADF의 Apache Airflow) 기반 워크플로를 데이터 워크플로(Microsoft Fabric의 Apache Airflow)로 마이그레이션하는 것이 좋습니다. Apache Airflow 기능은 2025년 1분기에 Microsoft Fabric에서만 일반 공급될 예정입니다. 새로운 Apache Airflow 프로젝트의 경우 Microsoft Fabric에서 Apache Airflow를 사용하는 것이 좋습니다. 자세한 내용은 여기에서 찾을 수 있습니다. 새로운 사용자는 ADF에서 새 워크플로 오케스트레이션 매니저를 만들 수 없지만, 워크플로 오케스트레이션 매니저를 사용하는 기존 사용자는 계속 사용할 수 있지만 곧 마이그레이션을 계획할 수 있습니다.
참고 항목
Azure Data Factory용 워크플로 오케스트레이션 매니저는 오픈 소스 Apache Airflow 애플리케이션을 사용합니다. Airflow에 대한 설명서 및 추가 자습서는 Apache Airflow 설명서 또는 커뮤니티 페이지에서 찾을 수 있습니다.
Azure Data Factory는 데이터 프로세스 오케스트레이션, 100개 이상의 관리 커넥터를 통한 데이터 이동, 매핑 데이터 흐름을 통한 시각적 변환을 위한 서버리스 파이프라인을 제공합니다.
Azure Data Factory 워크플로 오케스트레이션 매니저 서비스는 Apache Airflow 환경을 만들고 관리하는 간단하고 효율적인 방법으로, 대규모 데이터 파이프라인을 쉽게 실행할 수 있도록 해줍니다. Apache Airflow는 복잡한 데이터 워크플로를 프로그래밍 방식으로 만들기, 예약 및 모니터링하는 데 사용되는 오픈 소스 플랫폼입니다. 이를 통해 데이터 파이프라인을 나타내기 위해 DAG(방향성 비순환 그래프)로 결합할 수 있는 연산자라고 하는 일련의 작업을 정의할 수 있습니다. Airflow를 사용하면 일정에 따라 또는 이벤트에 대한 응답으로 이러한 DAG를 실행하고, 워크플로 진행률을 모니터링하고, 각 작업의 상태에 대한 표시 여부를 제공할 수 있습니다. 이는 데이터 파이프라인을 오케스트레이션하기 위해 데이터 엔지니어링 및 데이터 과학에서 널리 사용되며 유연성, 확장성 및 사용 편의성으로 잘 알려져 있습니다.
워크플로 오케스트레이션 매니저를 언제 사용해야 하나요?
Azure Data Factory는 데이터 프로세스를 시각적으로 오케스트레이션하기 위한 파이프라인을 제공합니다(UI 기반 작성). 워크플로 오케스트레이션 매니저는 데이터 오케스트레이션 프로세스를 정의하기 위한 Airflow 기반 Python DAG(Python 코드 중심 작성)를 제공합니다. Airflow에 대한 배경 정보가 있거나 현재 Apache Airflow를 사용 중이라면 파이프라인 대신 워크플로 오케스트레이션 매니저를 사용하는 것이 좋습니다. 반대로 데이터 프로세스 오케스트레이션을 위해 Python 기반 DAG를 작성/관리하고 싶지 않다면 파이프라인을 사용하는 것이 더 나을 수도 있습니다.
워크플로 오케스트레이션 매니저를 통해 Azure Data Factory는 이제 시각적, 코드 중심, OSS 오케스트레이션 요구 사항 전반에 걸친 다중 오케스트레이션 기능을 제공합니다.
기능
Azure Data Factory의 워크플로 오케스트레이션 매니저는 다음을 포함한 다양한 강력한 기능을 제공합니다.
- 빠르고 간단한 배포 - 워크플로 오케스트레이션 매니저를 만들 때 Apache Airflow 버전을 선택하여 Apache Airflow를 빠르고 쉽게 설정할 수 있습니다.
- 클라우드 규모 - 워크플로 오케스트레이션 매니저는 범위 사양(최소, 최대)에 따라 필요한 경우 Apache Airflow 노드를 자동으로 크기 오케스트레이션합니다.
- Microsoft Entra 통합 - Microsoft Entra ID로 보호되는 Single Sign-On 환경을 위해 Airflow 환경에 대해 Microsoft Entra RBAC를 사용하도록 설정할 수 있습니다.
- 메타데이터 암호화 - 워크플로 오케스트레이션 매니저는 Azure에서 관리하는 키를 사용하여 메타데이터를 자동으로 암호화하여 기본적으로 사용자 환경이 안전하도록 보장합니다. 또한 CMK(고객 관리형 키)를 사용한 이중 암호화를 지원합니다.
- Azure 모니터링 및 경고 - 워크플로 오케스트레이션 매니저에서 생성된 모든 로그가 Azure Monitor로 내보내집니다. 또한 중요한 조건을 추적하고 필요한 경우 이를 알리는 데 도움이 되는 메트릭을 제공합니다.
아키텍처
지역 가용성(공개 미리 보기)
- 미국 동부
- 미국 중남부
- 미국 서부
- 브라질 남부
- 영국 남부
- 북유럽
- 서유럽
- 동남아시아
참고 항목
Airflow 환경 지역은 기본적으로 Data Factory 지역으로 설정되며 구성할 수 없으므로 워크플로 오케스트레이션 매니저 미리 보기에 액세스하려면 위에 지원되는 지역의 Data Factory를 사용해야 합니다.
지원되는 Apache Airflow 버전
- 2.6.3
참고 항목
기존 IR 내에서 Airflow 버전을 변경하는 것은 지원되지 않습니다. 대신 권장되는 솔루션은 원하는 버전으로 새 Airflow IR을 만드는 것입니다.
통합
Apache Airflow는 microsoft.azure 공급자를 통해 Microsoft Azure 서비스와 통합됩니다.
Azure Data Factory UI에서 Airflow 환경을 편집하여 공급자 패키지를 설치할 수 있습니다. 패키지를 설치하는 데 몇 분 정도 걸립니다.
제한 사항
- 다른 지역의 워크플로 오케스트레이션 매니저는 GA를 통해 제공됩니다.
- Airflow를 통해 연결되는 데이터 원본은 공용 엔드포인트(네트워크)를 통해 액세스할 수 있어야 합니다.
- VNet의 Blob Storage 내부/방화벽 뒤에 있는 DAG는 현재 지원되지 않습니다. 대신 워크플로 오케스트레이션 매니저의 Git 동기화 기능을 사용하는 것이 좋습니다. 워크플로 오케스트레이션 매니저에서 GitHub 리포지토리 동기화를 참조하세요.
- Azure Key Vault에서 Dags 가져오기는 LinkedServices에서 지원되지 않습니다.