다음을 통해 공유


Azure Synapse Analytics에서 Microsoft Fabric으로 데이터 및 파이프라인 마이그레이션

데이터 및 파이프라인 마이그레이션의 첫 번째 단계는 OneLake에서 사용할 수 있도록 하려는 데이터와 이동하려는 파이프라인을 식별하는 것입니다.

데이터 마이그레이션에는 두 가지 옵션이 있습니다.

  • 옵션 1: Azure ADLS(Data Lake Storage) Gen2를 기본 스토리지로 사용합니다. 현재 ADLS Gen2를 사용 중이며 데이터 복사를 방지하려면 OneLake 바로 가기를 사용하는 것이 좋습니다.
  • 옵션 2: OneLake를 기본 스토리지로 사용합니다. ADLS Gen2에서 OneLake로 스토리지 계층으로 이동하려면 Notebook 및 Spark 작업 정의에서 OneLake를 읽고 쓰는 것이 좋습니다.

데이터 마이그레이션

옵션 1: 스토리지로 ADLS Gen2(바로 가기)

ADLS Gen2와 상호 작용하고 데이터 중복을 방지하려는 경우 OneLake에서 ADLS Gen2 원본 경로에 대한 바로 가기를 만들 수 있습니다. 다음 사항을 고려하여 Fabric의 Lakehouse에 있는 파일테이블 섹션 내에 바로 가기를 만들 수 있습니다.

  • 파일 섹션은 Lake의 관리되지 않는 영역입니다. 데이터가 CSV, JSON 또는 Parquet 형식인 경우 이 영역에 대한 바로 가기를 만드는 것이 좋습니다.
  • 테이블 섹션은 Lake의 관리되는 영역입니다. Spark 관리 테이블과 관리되지 않는 테이블 모두 여기에 등록됩니다. 데이터가 Delta 형식인 경우 이 영역에서 바로 가기를 만들 수 있으며 자동 검색 프로세스는 Lakehouse의 메타스토어에 해당 델타 테이블을 자동으로 등록합니다.

ADLS Gen2 바로 가기를 만드는 방법에 대해 자세히 알아봅니다.

옵션 2: OneLake를 스토리지로

OneLake를 스토리지 계층으로 사용하고 ADLS Gen2에서 데이터를 이동하려면 처음에 Azure Synapse Spark 관련 항목을 OneLake로 가리킨 다음 기존 데이터를 OneLake로 전송해야 합니다. 전자의 경우 Azure Synapse Spark와 OneLake 통합을 참조하세요.

기존 데이터를 OneLake로 이동하려면 다음과 같은 몇 가지 옵션이 있습니다.

  • mssparkutils fastcp: mssparkutils 라이브러리는 ADLS Gen2에서 OneLake로 데이터를 복사할 수 있는 fastcp API를 제공합니다.
  • AzCopy: AzCopy 명령줄 유틸리티를 사용하여 ADLS Gen2에서 OneLake로 데이터를 복사할 수 있습니다.
  • Azure Data Factory, Azure Synapse Analytics 및 Fabric의 Data Factory: 복사 작업을 사용하여 레이크하우스에 데이터를 복사합니다.
  • 바로 가기 사용: 바로 가기를 사용하여 OneLake에서 ADLS Gen2 기록 데이터를 사용하도록 설정할 수 있습니다. 데이터 복사가 필요하지 않습니다.
  • Azure Storage Explorer: Azure Storage Explorer를 사용하여 ADLS Gen2 위치에서 OneLake로 파일을 이동할 수 있습니다. OneLake를 Azure Storage Explorer와 통합하는 방법을 알아보세요.

Azure Synapse 데이터 파이프라인에 Notebook 및/또는 Spark 작업 정의 작업이 포함된 경우 해당 파이프라인을 Azure Synapse에서 Fabric의 Data Factory 데이터 파이프라인으로 이동하고 대상 Notebook을 참조해야 합니다. Notebook 작업은 Data Factory 데이터 파이프라인에서 사용할 수 있습니다. 여기에서 Fabric 에서 지원되는 모든 데이터 파이프라인 작업을 참조하세요.