Azure Data Factory란?

완료됨

Azure Data Factory가 비즈니스 인사이트를 만들기 위해 데이터를 구성하는 데 적합한지 결정하기 위한 Azure Data Factory 개요부터 시작해 보겠습니다.

Azure Data Factory는 다음과 같은 데이터 기반 워크플로를 만드는 클라우드 기반 ETL(추출, 변환, 로드) 및 데이터 통합 서비스입니다.

  • 데이터 이동을 오케스트레이션합니다.
  • 대규모로 데이터를 변환합니다.

참고

‘데이터 기반 워크플로’를 파이프라인이라고도 합니다.

Azure Data Factory를 사용하면 원시 데이터를 의미 있는 데이터 저장소와 데이터 레이크로 다시 구성하여 더 나은 비즈니스 의사 결정을 내리기 위한 기반을 제공할 수 있습니다.

데이터 분석이란?

데이터 분석은 원시 데이터를 수집하고 검사하여 결론을 도출하는 프로세스입니다. 데이터가 호스트된 데이터베이스, 온-프레미스 위치 등 여러 위치에 있는 경우 이 프로세스는 어려울 수 있습니다.

‘원시 데이터’는 원본에서 수집되고 처리되지 않은 데이터입니다. ‘구성되지 않은 데이터’라고도 합니다.

Azure는 다음을 비롯해 조직의 데이터 분석에 도움이 되도록 구현할 수 있는 여러 기술을 제공합니다.

  • Azure Synapse Analytics
  • Azure Blob Storage
  • Azure Data Lake Storage
  • Azure 데이터 레이크 분석
  • Azure Analysis Services
  • Azure HDInsight
  • Azure Databricks
  • Azure Machine Learning

필요에 따라 일부 또는 모든 서비스를 사용하여 조직 데이터를 분석할 수 있습니다. 그러나 데이터 통합을 해결하는 서비스는 없습니다. 데이터 통합을 사용하면 여러 원본에서 데이터를 수집한 다음, 결합된 데이터를 데이터 분석에 적합한 위치에 로드할 수 있습니다. 필요한 경우 프로세스 중에 데이터를 변환할 수 있습니다. 이 작업을 수동으로 수행할 수 있지만 Azure Data Factory 사용을 고려할 수 있습니다.

Azure Data Factory 정의

Azure Data Factory는 다음 표에 설명된 대로 두 가지 특정 커뮤니티의 요구 사항을 해결하도록 설계된 클라우드 기반 데이터 통합 서비스입니다.

커뮤니티 커뮤니티 요구 사항 설명
빅 데이터 커뮤니티 이 커뮤니티는 다양한 대용량 데이터를 관리하는 기술을 사용합니다. 이를 위해 Azure Data Factory는 클라우드에서 파이프라인을 만들고 실행하는 수단을 제공합니다. 이 파이프라인은 클라우드 및 온-프레미스 데이터 서비스에 둘 다 액세스할 수 있습니다. 이러한 파이프라인은 일반적으로 Azure Synapse Analytics, Azure Blob, Azure Data Lake와 같은 기술을 사용합니다. 또한 Azure HDInsight와 Azure Databricks, Azure Machine Learning도 있습니다.
관계형 데이터 웨어하우징 커뮤니티 이 커뮤니티는 일반적으로 Microsoft SQL Server와 같은 기술을 사용합니다. SSIS(SQL Server Integration Services)는 종종 SSIS 패키지를 만드는 데 사용됩니다. Azure Data Factory는 이 커뮤니티에 Azure에서 SSIS 패키지를 실행할 수 있는 기능을 제공하여 클라우드와 온-프레미스 데이터 서비스에 모두 액세스할 수 있도록 합니다.

참고 항목

‘패키지’는 Azure Data Factory 파이프라인과 비슷합니다. 각 패키지는 데이터를 추출, 로드, 변환하거나 사용하는 프로세스를 정의합니다.

중요한 것은 Azure Data Factory가 데이터 통합을 위한 단일 클라우드 서비스라는 점입니다. 모든 데이터를 통합하기 위한 단일 도구 집합과 공통 관리 인터페이스를 제공하여 데이터 위치와 관계없이 모든 데이터 원본을 지원합니다.

  • Azure
  • 온-프레미스
  • 타사 퍼블릭 클라우드 플랫폼

데이터 분석에 Azure Data Factory를 사용하는 방법

Azure Data Factory를 사용하여 다음을 수행할 수 있습니다.

  • 복잡한 ETL 프로세스를 빌드합니다. 이 프로세스는 다음과 같은 데이터 흐름 또는 컴퓨팅 서비스를 사용하여 데이터를 시각적으로 변환할 수 있습니다.

    • Azure HDInsight Hadoop
    • Azure Databricks
    • Azure SQL Database
  • 변환된 데이터를 비즈니스 인텔리전스 앱이 사용할 수 있도록 데이터 저장소에 게시합니다.

다음 그래픽에서 외부 데이터 원본은 Azure Data Factory에 연결됩니다. Storage Blob은 데이터를 수집하는 데 사용되지만 Azure Synapse Analytics는 스토리지로 사용됩니다. 이 요소는 오케스트레이션을 제공합니다. 분석 및 시각화 구성 요소, Azure Analysis Service 및 Power BI도 Azure Data Factory에 연결됩니다.

Azure Data Factory를 사용할 수 있는 아키텍처를 보여 주는 그래픽.

Azure Data Factory는 90개 이상의 기본 제공되는 유지 관리 없는 커넥터를 제공합니다.