Azure Data Factory 이해
대부분의 분석 솔루션에서는 데이터의 일괄 이동을 트리거하거나 정기적인 일정을 설정하는 것이 요구 사항입니다. ADF(Azure Data Factory)는 해당 요구 사항을 충족하기 위해 사용할 수 있는 서비스입니다. ADF는 다양한 데이터 저장소와 컴퓨팅 리소스 간 데이터의 이동과 변환을 오케스트레이션하는 클라우드 기반 데이터 통합 서비스를 제공합니다.
Azure Data Factory는 데이터 이동을 오케스트레이션하고 대규모로 데이터를 변환하기 위해 데이터 기반 워크플로를 만들 수 있는 클라우드 기반 ETL 및 데이터 통합 서비스입니다. Azure Data Factory를 사용하여 서로 다른 데이터 저장소의 데이터를 수집할 수 있는 데이터 기반 워크플로(파이프라인이라고 함)를 만들고 예약할 수 있습니다. 데이터 흐름을 사용하거나 컴퓨팅 서비스(예: Azure HDInsight Hadoop, Azure Databricks, Azure Synapse Analytics)를 사용하여 데이터를 시각적으로 변환하는 복잡한 ETL 프로세스를 작성할 수 있습니다.
Azure Data Factory의 많은 기능은 Azure Synapse Analytics에 파이프라인이라고 하는 기능으로 나타납니다. 이 기능을 사용하면 SQL 풀, Spark 풀, SQL Serverless 간에 데이터 파이프라인을 통합하여 모든 분석 요구 사항을 한곳에서 해결할 수 있습니다.
오케스트레이션의 의미
비유를 사용하면, 심포니 오케스트라를 생각할 수 있습니다. 오케스트라의 중심 구성원은 지휘자입니다. 지휘자는 악기를 연주하지 않으며, 심포니 구성원이 전체 음악을 연주하도록 이끄는 역할만 합니다. 연주자는 자신의 기술을 사용하여 심포니의 여러 단계에서 특정 사운드를 생성하므로, 음악의 특정 부분만 학습할 수 있습니다. 지휘자는 전체 음악을 오케스트레이션하므로 연주되는 전체 악보를 알고 있습니다. 또한 음악을 연주하는 방법에 대한 지침을 연주자에게 제공하는 특정 팔 움직임을 사용합니다.
ADF는 유사한 접근 방식을 사용할 수 있지만 데이터를 수집하고 변환하는 기본 기능을 가지고 있습니다. 때로는 다른 서비스(예: 변환 쿼리를 실행하는 Databricks)가 대신 필요한 실제 작업을 수행하도록 지시합니다. 따라서 이 경우 작업을 수행하는 것은 ADF가 아니라 Databricks입니다. ADF는 단순히 쿼리 실행을 오케스트레이션한 다음, 파이프라인을 제공하여 데이터를 다음 단계 또는 대상으로 이동합니다.
또한 데이터 파이프라인 간의 종속성과 계보를 표시하는 다양한 시각화를 제공하며 문제를 쉽고 정확하게 파악하고 모니터링 경고를 설정하는 통합된 단일 보기에서 모든 데이터 파이프라인을 모니터링합니다.