다음을 통해 공유


Azure Data Factory에서 마이그레이션 계획

Microsoft Fabric은 Microsoft의 모든 시장 선도 분석 제품을 단일 사용자 환경으로 통합하는 Microsoft의 데이터 분석 SaaS 제품입니다. Fabric Data Factory는 ADF(Azure Data Factory)에 있는 유사한 기능을 사용하여 워크플로 오케스트레이션, 데이터 이동, 데이터 복제 및 데이터 변환을 대규모로 제공합니다. Fabric Data Factory로 현대화하려는 기존 ADF 투자가 있는 경우 이 문서는 마이그레이션 고려 사항, 전략 및 접근 방식을 이해하는 데 유용합니다.

Azure PaaS ETL/DI 서비스 ADF & Synapse 파이프라인 및 데이터 흐름에서 마이그레이션하면 다음과 같은 몇 가지 중요한 이점이 제공됩니다.

  • 이메일 및 Teams 활동을 비롯한 새로운 통합 파이프라인 기능을 사용하면 파이프라인 실행 중에 메시지를 쉽게 라우팅할 수 있습니다.
  • 기본 제공 CI/CD(연속 통합 및 배달) 기능(배포 파이프라인)은 Git 리포지토리와 외부 통합이 필요하지 않습니다.
  • OneLake 데이터 레이크와 작업 영역을 통합하면 단일 창에서 간편한 분석을 관리할 수 있습니다.
  • 완전히 통합된 파이프라인 작업을 사용하여 패브릭에서 의미 체계 데이터 모델을 새로 고치는 것이 쉽습니다.

Microsoft Fabric은 셀프 서비스 및 IT 관리 엔터프라이즈 데이터를 위한 통합 플랫폼입니다. 데이터 볼륨과 복잡성이 기하급수적으로 증가함에 따라 Fabric 고객은 규모가 크고, 안전하고, 관리하기 쉽고, 가장 큰 조직의 모든 사용자가 액세스할 수 있는 엔터프라이즈 솔루션을 요구합니다.

최근 몇 년 동안 Microsoft는 프리미엄에 확장 가능한 클라우드 기능을 제공하기 위해 상당한 노력을 기울였습니다. 이를 위해 Fabric의 Data Factory는 수십 년 동안 구축된 데이터 통합 개발자 및 데이터 통합 솔루션의 대규모 에코시스템을 즉시 강화하여 이전 세대에서 사용할 수 있는 비슷한 기능을 훨씬 뛰어넘는 전체 기능과 기능을 적용합니다.

당연히 고객은 Fabric 내에서 데이터 통합 솔루션을 호스팅하여 통합할 기회가 있는지 묻고 있습니다. 일반적인 질문은 다음과 같습니다.

  • 우리가 사용하는 모든 기능이 패브릭 파이프라인에서 작동하나요?
  • 패브릭 파이프라인에서만 사용할 수 있는 기능은 무엇인가요?
  • 기존 파이프라인을 패브릭 파이프라인으로 마이그레이션하려면 어떻게 해야 할까요?
  • 엔터프라이즈 데이터 수집을 위한 Microsoft의 로드맵은 무엇인가요?

플랫폼 차이점

전체 ADF 인스턴스를 마이그레이션하는 경우 패브릭에서 ADF와 Data Factory 간에 고려해야 할 중요한 차이점이 많이 있습니다. 이는 패브릭으로 마이그레이션할 때 중요해집니다. 이 섹션에서는 이러한 몇 가지 중요한 차이점을 살펴봅니다.

Azure Data Factory와 Fabric Data Factory 간의 기능 차이의 기능 매핑에 대한 자세한 내용은 Fabric의 Data Factory와 Azure Data Factory비교를 참조하세요.

통합 런타임

ADF에서 IR(통합 런타임)은 ADF에서 데이터 처리를 완료하는 데 사용하는 컴퓨팅을 나타내는 구성 개체입니다. 이러한 구성 속성에는 클라우드 컴퓨팅 및 데이터 흐름 Spark 컴퓨팅 크기에 대한 Azure 지역이 포함됩니다. 다른 IR 유형으로는 온-프레미스 데이터 연결을 위한 자체 호스팅 RS(RS), SQL Server Integration Services 패키지를 실행하기 위한 SSIS RS 및 Vnet 지원 클라우드 RS가 포함됩니다.

Azure Data Factory의 통합 런타임 탭을 보여 주는 스크린샷

Microsoft Fabric은 SaaS(Software-as-a-Service) 제품인 반면 ADF는 PaaS(Platform-as-a-Service) 제품입니다. 이러한 차이점이 통합 런타임 측면에서 의미하는 바는 패브릭의 파이프라인 또는 데이터 흐름을 사용하도록 구성할 필요가 없다는 것입니다. 기본값은 패브릭 용량이 있는 지역에서 클라우드 기반 컴퓨팅을 사용하는 것입니다. SSIS IRs는 Fabric에 존재하지 않으며 온프레미스 데이터 연결을 위해 온프레미스 데이터 게이트웨이(OPDG)으로 알려진 Fabric 전용 구성 요소를 사용합니다. 또한 보안 네트워크에 대한 가상 네트워크 기반 연결의 경우 패브릭에서 Virtual Network 데이터 게이트웨이를 사용합니다.

ADF에서 패브릭으로 마이그레이션할 때 공용 네트워크 Azure(클라우드) IR를 마이그레이션할 필요가 없습니다. SHIR을 OPDG 및 가상 네트워크 사용 Azure IRs로 다시 만들어야 하며, Virtual Network Data Gateway를로 사용해야 합니다.

패브릭 관리자 페이지의 연결 및 게이트웨이 관리 옵션을 보여 주는 스크린샷

파이프라인

파이프라인은 데이터 이동, 데이터 변환 및 프로세스 오케스트레이션을 위해 ADF 프로세스의 기본 워크플로 및 오케스트레이션에 사용되는 ADF의 기본 구성 요소입니다. Fabric Data Factory의 파이프라인은 ADF와 거의 동일하지만 Power BI 웰 기반 SaaS 모델에 맞는 추가 구성 요소가 있습니다. 이러한 유사성에는 이메일, Teams 및 의미 체계 모델 새로 고침에 대한 네이티브 활동이 포함됩니다.

Fabric Data Factory의 파이프라인에 대한 JSON 정의는 두 제품 간의 애플리케이션 모델 차이로 인해 ADF와 약간 다릅니다. 이러한 차이로 인해 파이프라인 JSON을 복사/붙여넣거나, 파이프라인을 가져오거나 내보내거나, ADF Git 리포지토리를 가리킬 수 없습니다.

ADF 파이프라인을 패브릭 파이프라인으로 다시 빌드할 때는 기본적으로 ADF에서 사용한 것과 동일한 워크플로 모델 및 기술을 사용합니다. 주요 고려 사항은 Fabric에 없는 ADF의 개념인 연결된 서비스 및 데이터 세트와 관련이 있습니다.

연결된 서비스

ADF에서 연결된 서비스는 데이터 이동, 데이터 변환 및 데이터 처리 작업을 위해 데이터 저장소에 연결하는 데 필요한 연결 속성을 정의합니다. Fabric에서 이러한 정의를 복사 및 데이터 흐름과 같은 활동에 대한 속성인 연결로 다시 만들어야 합니다.

데이터 세트

데이터 세트는 ADF에서 데이터의 셰이프, 위치 및 콘텐츠를 정의하지만 Fabric에는 엔터티로 존재하지 않습니다. Fabric Data Factory 파이프라인에서 데이터 형식, 열, 폴더, 테이블 등과 같은 데이터 속성을 정의하려면 파이프라인 작업 내부 및 연결된 서비스 섹션에서 이전에 참조한 연결 개체 내에서 이러한 특성을 인라인으로 정의합니다.

데이터 흐름

Fabric용 Data Factory에서 데이터 흐름이라는 용어는 코드 없는 데이터 변환 작업을 참조하는 반면, ADF에서는 동일한 기능을 데이터 흐름이라고 합니다. Fabric Data Factory 데이터 흐름에는 ADF 파워 쿼리 활동에 사용되는 파워 쿼리를 기반으로 하는 사용자 인터페이스가 있습니다. 패브릭에서 데이터 흐름을 실행하는 데 사용되는 컴퓨팅은 새 Fabric Data Warehouse 컴퓨팅 엔진을 사용하여 대규모 데이터 변환을 위해 스케일 아웃할 수 있는 네이티브 실행 엔진입니다.

ADF에서 데이터 흐름은 Synapse Spark 인프라를 기반으로 하며 데이터 흐름 스크립트알려진 기본 DSL(도메인별 언어)을 사용하는 생성 사용자 인터페이스를 사용하여 정의됩니다. 이 정의 언어는 M 정의 언어를 사용하여 동작을 정의하는 패브릭의 파워 쿼리 기반 데이터 흐름과 상당히 다릅니다. 사용자 인터페이스, 언어 및 실행 엔진의 이러한 차이로 인해 Fabric 데이터 흐름과 ADF 데이터 흐름은 호환되지 않으며, 솔루션을 Fabric으로 업그레이드할 때 ADF 데이터 흐름을 Fabric 데이터 흐름으로 다시 만들어야 합니다.

트리거

신호 ADF를 트리거하여 벽시계 시간 일정, 연속 창 시간 조각, 파일 기반 이벤트 또는 사용자 지정 이벤트에 따라 파이프라인을 실행합니다. 기본 구현은 다르지만 이러한 기능은 패브릭에서 유사합니다.

패브릭에서 트리거는 오로지 파이프라인 개념으로만 존재합니다. 파이프라인 트리거가 Fabric에서 사용하는 더 큰 프레임워크는 Data Activator이라고 하며, 이는 패브릭의 실시간 인텔리전스 기능의 이벤트 및 경고 하위 시스템입니다.

Azure Data Factory의 트리거 페이지를 보여 주는 스크린샷

Fabric Data Activator에는 파일 이벤트 및 사용자 지정 이벤트 트리거를 만드는 데 사용할 수 있는 경고 있습니다. 일정 트리거는 Fabric의 일정로 알려진 별도 엔터티입니다. 이러한 일정은 패브릭의 플랫폼 수준에 있으며 파이프라인에만 해당되지 않습니다. 패브릭에서 트리거를이라고 부르지 않습니다.

Fabric으로 트리거를 이전할 때, ADF의 일정 트리거를 단순히 Fabric 파이프라인의 속성으로서의 일정으로 다시 빌드하는 것을 고려해 보세요. 다른 모든 트리거 형식의 경우 패브릭 파이프라인 내의 트리거 단추를 사용하거나 패브릭에서 기본적으로 데이터 활성화기를 사용합니다.

패브릭 파이프라인 편집기에서 Data Factory의 트리거 추가 단추를 보여 주는 스크린샷

디버깅

파이프라인 디버깅은 ADF보다 패브릭에서 더 간단합니다. 이러한 단순성은 Fabric Data Factory 파이프라인에 ADF 파이프라인 및 데이터 흐름에서 찾을 수 있는 디버그 모드 대한 별도의 개념이 없기 때문입니다. 대신 파이프라인을 빌드할 때 항상 대화형 모드에 있습니다. 파이프라인을 테스트하고 디버그하려면 개발 주기에서 준비가 되면 파이프라인 편집기 도구 모음에서 재생 단추를 선택하기만 하면 됩니다. 패브릭의 파이프라인은 대화형으로 단계적으로 디버깅을 수행하는 패턴 전까지 디버그를 포함하지 않습니다. 대신 Fabric에서는 작업 상태를 활용하고 다른 모든 활동을 비활성으로 설정하면서 활성으로 테스트하려는 활동만 설정하여 동일한 테스트 및 디버그 패턴을 달성합니다. Fabric에서 이 디버깅 환경을 구현하는 방법을 안내하는 다음 비디오를 참조하세요.

변경 데이터 캡처

ADF의 CDC(변경 데이터 캡처)는 데이터 저장소의 원본 쪽 CDC 기능을 적용하여 증분 방식으로 데이터를 빠르게 쉽게 이동할 수 있는 미리 보기 기능입니다. CDC 아티팩트를 Fabric Data Factory로 마이그레이션하려면 이 아티팩트를 복사 작업 항목으로 Fabric 작업 공간에서 재현합니다. 이 기능은 ADF CDC와 마찬가지로 파이프라인을 요구하지 않고도 사용하기 쉬운 UI를 사용하여 증분 데이터 이동의 유사한 기능을 제공합니다. 자세한 내용은 패브릭의 Data Factory에 대한 복사 작업 참조하세요.

ADF에서는 사용할 수 없지만 Synapse 파이프라인 사용자는 Azure Synapse Link를 자주 활용하여 턴키 접근 방식으로 SQL 데이터베이스에서 해당 데이터 레이크로 데이터를 복제합니다. Fabric에서는 Azure Synapse Link 아티팩트를 작업 영역에서 미러링 항목으로 재작성합니다. 자세한 내용은 Fabric 데이터베이스 미러링에 대해 참조하세요.

SSIS(SQL Server Integration Services)

SSIS는 Microsoft가 SQL Server와 함께 제공하는 온-프레미스 데이터 통합 및 ETL 도구입니다. ADF에서는 ADF SSIS IR을 사용하여 SSIS 패키지를 클라우드로 리프트 앤 시프트할 수 있습니다. Fabric에서는 RS 개념이 없으므로 현재는 이 기능을 사용할 수 없습니다. 그러나 패브릭에서 기본적으로 SSIS 패키지 실행을 사용하도록 설정하기 위해 노력하고 있으며, 곧 제품으로 가져올 예정입니다. 그 동안 Fabric Data Factory를 사용하여 클라우드에서 SSIS 패키지를 실행하는 가장 좋은 방법은 ADF 팩터리에서 SSIS IR을 시작한 다음 ADF 파이프라인을 호출하여 SSIS 패키지를 호출하는 것입니다. 다음 섹션에 설명된 호출된 파이프라인 작업을 사용하여 패브릭 파이프라인에서 ADF 파이프라인을 원격으로 호출할 수 있습니다.

파이프라인 작업 호출

ADF 파이프라인에서 사용되는 일반적인 작업은 팩터리에서 다른 파이프라인을 호출할 수 있는 파이프라인 실행 작업. Fabric에서는 호출 파이프라인 작업이 향상되었습니다. 호출 파이프라인 작업 설명서를 참조하세요.

이 활동은 매핑 데이터 흐름 또는 SSIS와 같은 ADF 관련 기능을 사용하는 많은 ADF 파이프라인이 있는 마이그레이션 시나리오에 유용합니다. ADF 또는 Synapse 파이프라인에서 as-is 해당 파이프라인을 유지 관리한 다음, Invoke 파이프라인 작업을 사용하고 원격 팩터리 파이프라인을 가리켜 새 Fabric Data Factory 파이프라인에서 해당 파이프라인을 인라인으로 호출할 수 있습니다.

샘플 마이그레이션 시나리오

다음 시나리오는 ADF에서 Fabric Data Factory로 마이그레이션할 때 발생할 수 있는 일반적인 마이그레이션 시나리오입니다.

시나리오 #1: ADF 파이프라인 및 데이터 흐름

팩터리 마이그레이션의 기본 사용 사례는 ADF 팩터리 PaaS 모델에서 새 Fabric SaaS 모델로 ETL 환경을 현대화하는 것을 기반으로 합니다. 마이그레이션할 기본 팩터리 항목은 파이프라인 및 데이터 흐름입니다. 연결된 서비스, 통합 런타임, 데이터 세트 및 트리거와 같은 두 가지 최상위 항목 외부에서 마이그레이션을 계획해야 하는 몇 가지 기본 팩터리 요소가 있습니다.

  • 연결된 서비스들은 파이프라인 작업의 연결들로 Fabric에서 다시 만들어야 합니다.
  • Factory에는 데이터 세트가 없습니다. 데이터 세트의 속성은 복사 또는 조회와 같은 파이프라인 작업 내의 속성으로 표현되는 반면 연결에는 다른 데이터 세트 속성이 포함됩니다.
  • 통합 런타임은 Fabric에 없습니다. 그러나 패브릭의 온-프레미스 데이터 게이트웨이(OPDG)와 Azure 가상 네트워크 IR을 패브릭의 관리형 가상 네트워크 게이트웨이로 사용하여 자체 호스팅 IR을 다시 만들 수 있습니다.
  • 이러한 ADF 파이프라인 작업은 Fabric Data Factory에 포함되지 않습니다.
    • U-SQL(Data Lake Analytics) - 이 기능은 더 이상 사용되지 않는 Azure 서비스입니다.
    • 유효성 검사 작업 - ADF의 유효성 검사 작업은 메타데이터 가져오기 작업, 파이프라인 루프 및 If 작업을 사용하여 패브릭 파이프라인에서 쉽게 다시 빌드할 수 있는 도우미 작업입니다.
    • 파워 쿼리 - 패브릭에서 모든 데이터 흐름은 파워 쿼리 UI를 사용하여 빌드되므로 ADF 파워 쿼리 작업에서 M 코드를 복사하여 붙여넣고 Fabric에서 데이터 흐름으로 빌드할 수 있습니다.
  • Fabric Data Factory에서 찾을 수 없는 ADF 파이프라인 기능을 사용하는 경우 Fabric의 호출 파이프라인 작업을 사용하여 ADF의 기존 파이프라인을 호출합니다.
  • 다음 ADF 파이프라인 활동은 단일 목적 활동으로 결합됩니다.
    • Azure Databricks 활동(노트북, JAR, 파이썬)
    • Azure HDInsight(Hive, Pig, MapReduce, Spark, Streaming)

다음 이미지는 파일 경로 및 압축 설정이 있는 ADF 데이터 세트 구성 페이지를 보여 줍니다.

ADF 데이터 세트 구성 페이지를 보여 주는 스크린샷

다음 이미지는 작업에서 압축 및 파일 경로가 인라인으로 표시되는 Fabric의 Data Factory에 대한 복사 작업의 구성을 보여 줍니다.

패브릭 복사 작업의 압축 구성에서 Data Factory를 보여주는 스크린샷

시나리오 #2: CDC, SSIS 및 Airflow를 사용하는 ADF

ADF의 CDC & Airflow는 미리 보기 기능이며 ADF의 SSIS는 수년 동안 일반적으로 사용할 수 있는 기능입니다. 이러한 각 기능은 서로 다른 데이터 통합 요구 사항을 제공하지만 ADF에서 Fabric으로 마이그레이션할 때 특별한 주의가 필요합니다. CDC(변경 데이터 캡처)는 최상위 ADF 개념이지만 Fabric에서는 이 기능이 복사 작업표시됩니다.

Airflow는 ADF 클라우드 관리 Apache Airflow 기능이며 패브릭 데이터 팩터리에서도 사용할 수 있습니다. 동일한 Airflow 원본 리포지토리를 사용하거나 DAG를 가져와서 변경 없이 패브릭 Airflow 제품에 코드를 복사/붙여넣을 수 있어야 합니다.

시나리오 #3: Git 지원 Data Factory를 패브릭으로 마이그레이션

ADF 또는 Synapse 팩터리 및 작업 영역이 Azure DevOps 또는 GitHub에 있는 사용자 고유의 외부 Git 공급자에 연결되어 있는 것이 보통이지만, 반드시 그렇게 할 필요는 없습니다. 이 시나리오에서는 팩터리 및 작업 영역 항목을 패브릭 작업 영역으로 마이그레이션한 다음 패브릭 작업 영역에서 Git 통합을 설정해야 합니다.

패브릭은 작업 영역 수준에서 CI/CD를 사용하도록 설정하는 두 가지 기본 방법을 제공합니다. Git 통합은 ADO에서 고유한 Git 리포지토리를 가져오고 패브릭 및 기본 제공 배포 파이프라인에서 연결하여 고유한 Git을 가져오지 않고도 더 높은 환경으로 코드를 승격할 수 있습니다.

두 경우 모두 ADF의 기존 Git 리포지토리는 Fabric에서 작동하지 않습니다. 대신 새 리포지토리를 가리키거나 Fabric에서 새 배포 파이프라인 시작하고 Fabric에서 파이프라인 아티팩트를 다시 빌드해야 합니다.

기존 ADF 인스턴스를 패브릭 작업 영역에 직접 탑재

이전에는 우리가 기존 ADF 파이프라인 투자를 유지하고 Fabric에서 인라인으로 호출한다는 메커니즘으로 'Fabric Data Factory Invoke Pipeline 활동'을 사용하는 방법에 대해 얘기했습니다. 패브릭 내에서 이와 유사한 개념을 한 단계 더 발전시키고 패브릭 작업 영역 내에 전체 팩터리를 네이티브 패브릭 항목으로 탑재할 수 있습니다.

사용 시나리오 탑재에 대한 자세한 내용은 콘텐츠 공동 작업 및 배달 시나리오를 참조하세요.

패브릭 작업 영역 내에 Azure Data Factory를 탑재하면 고려해야 할 많은 이점이 있습니다. Fabric을 익숙하지 않은 경우 동일한 유리 창 내에 공장을 나란히 유지하려는 경우 패브릭에 탑재하여 패브릭 내부에서 둘 다 관리할 수 있습니다. 이제 여러분은 연결된 팩터리에서 전체 ADF UI를 사용할 수 있으며, 이를 통해 패브릭 작업 영역 내에서 ADF 팩터리 항목을 완전히 모니터링, 관리 및 편집할 수 있습니다. 이 기능을 사용하면 이러한 항목을 패브릭으로 네이티브 패브릭 아티팩트로 훨씬 쉽게 마이그레이션할 수 있습니다. 이 기능은 주로 사용 편의성을 위한 것이며 패브릭 작업 영역에서 ADF 팩터리를 쉽게 볼 수 있도록 합니다. 그러나 파이프라인, 활동, 통합 런타임 등의 실제 실행은 여전히 Azure 리소스 내에서 발생합니다.

ADF에서 Fabric의 Data Factory로 마이그레이션 고려 사항