Compartilhar via


Migrar dados e pipelines do Azure Synapse Analytics para o Microsoft Fabric

A primeira etapa na migração de dados e pipelines é identificar os dados que você deseja disponibilizar no OneLake e os pipelines que você pretende mover.

Você tem duas opções para migração de dados:

  • Opção 1: Azure Data Lake Storage (ADLS) Gen2 como armazenamento padrão. Se você estiver usando o ADLS Gen2 no momento e quiser evitar a cópia de dados, considere usar atalhos do OneLake.
  • Opção 2: OneLake como armazenamento padrão. Se você quiser mudar do ADLS Gen2 para o OneLake como uma camada de armazenamento, considere ler/gravar de/para o OneLake de seus notebooks e definições de trabalho do Spark.

Migração de dados

Opção 1: ADLS Gen2 como armazenamento (atalhos)

Se estiver interagindo com o ADLS Gen2 e quiser evitar duplicação de dados, você poderá criar um atalho para o caminho de origem do ADLS Gen2 no OneLake. Você pode criar atalhos nas seções Arquivos e Tabelas do Lakehouse no Fabric com as seguintes considerações:

  • A seção Arquivos é a área não gerenciada do lake. Se os dados estiverem no formato CSV, JSON ou Parquet, recomendamos criar um atalho para essa área.
  • A seção Tabelas é a área gerenciada do lake. Todas as tabelas, tanto gerenciadas pelo Spark quanto não gerenciadas, são registradas aqui. Se os dados estiverem no formato Delta, você poderá criar um atalho nessa área e o processo de descoberta automática registrará automaticamente essas tabelas Delta no metastore do Lakehouse.

Saiba mais sobre como criar um atalho do ADLS Gen2.

Opção 2: OneLake como armazenamento

Para usar o OneLake como uma camada de armazenamento e mover dados do ADLS Gen2, inicialmente, você deve apontar os itens relacionados ao Spark do Azure Synapse para o OneLake e transferir os dados existentes para o OneLake. Para o primeiro, consulte integrar o OneLake ao Spark do Azure Synapse.

Para mover os dados existentes para o OneLake, você tem várias opções:

  • mssparkutils fastcp: a biblioteca mssparkutils fornece uma API fastcp que permite copiar dados entre o ADLS Gen2 e o OneLake.
  • AzCopy: você pode usar o utilitário de linha de comando do AzCopy para copiar dados do ADLS Gen2 para o OneLake.
  • Azure Data Factory, Azure Synapse Analytics e Data Factory no Fabric: use a atividade Copy para copiar dados para o lakehouse.
  • Use atalhos: você pode habilitar dados históricos do ADLS Gen2 no OneLake usando atalhos. Nenhuma cópia de dados é necessária.
  • Gerenciador de Armazenamento do Microsoft Azure: você pode mover arquivos do local do ADLS Gen2 para o OneLake usando o Gerenciador de Armazenamento do Azure. Consulte Como integrar o OneLake com o Gerenciador de Armazenamento do Microsoft Azure.

Se os pipelines de dados do Azure Synapse incluírem atividades de definição de trabalho do Spark e/ou do notebook, você precisará mover esses pipelines do Azure Synapse para pipelines de dados do Data Factory no Fabric e fazer referência aos notebooks de destino. A atividade do notebook está disponível em pipelines de dados do Data Factory. Veja todas as atividades de pipeline de dados com suporte no Fabric aqui.