Compartilhar via


Cópia rápida no Dataflows Gen2

Este artigo descreve o recurso de cópia rápida no Dataflows Gen2 para Data Factory no Microsoft Fabric. Os fluxos de dados ajudam na ingestão e transformação de dados. Com a introdução da expansão do fluxo de dados com computação SQL DW, você pode transformar seus dados em escala. No entanto, seus dados precisam ser ingeridos primeiro. Com a introdução da cópia rápida, você pode ingerir terabytes de dados com a experiência fácil de fluxos de dados, mas com o back-end escalável da Atividade Copy do pipeline.

Depois de habilitar esse recurso, os fluxos de dados alternam automaticamente o back-end quando o tamanho dos dados excede um limite específico, sem a necessidade de fazer alterações durante a criação dos fluxos de dados. Após a atualização de um fluxo de dados, você pode verificar o histórico de atualização para ver se a cópia rápida foi usada durante a execução observando o tipo de mecanismo que aparece lá.

Com a opção Exigir cópia rápida habilitada, a atualização do fluxo de dados será cancelada se a cópia rápida não for usada. Isso ajuda a evitar que um tempo limite de atualização continue. Esse comportamento também pode ser útil em uma sessão de depuração para testar o comportamento do fluxo de dados com seus dados enquanto reduz o tempo de espera. Usando os indicadores de cópia rápida no painel de etapas de consulta, você pode verificar facilmente se sua consulta pode ser executada com cópia rápida.

Captura de tela mostrando onde o indicador de cópia rápida aparece no painel de etapas de consulta.

Pré-requisitos

  • Você deve ter uma capacidade do Fabric.
  • Para dados de arquivo, os arquivos estão no formato .csv ou parquet de pelo menos 100 MB e armazenados em um ADLS (Azure Data Lake Storage) Gen2 ou em uma conta de armazenamento de Blobs.
  • Para banco de dados, incluindo SQL do Azure, 5 milhões de linhas ou mais de dados na fonte de dados.

Observação

Você pode ignorar o limite para forçar a Cópia Rápida selecionando a configuração "Exigir cópia rápida".

Suporte ao conector

No momento, a cópia rápida tem suporte para os seguintes conectores fluxo de dados Gen2:

  • ADLS Gen2
  • Armazenamento de Blobs
  • Azure SQL DB
  • Lakehouse
  • PostgreSQL
  • SQL Server local
  • Warehouse
  • Oracle
  • Snowflake

A atividade de cópia oferece suporte apenas a algumas transformações ao se conectar a uma fonte de arquivos:

  • Combinar arquivos
  • Selecionar colunas
  • Alterar tipos de dados
  • Renomear uma coluna
  • Remover uma coluna

Você ainda pode aplicar outras transformações dividindo as etapas de ingestão e transformação em consultas separadas. A primeira consulta realmente recupera os dados e a segunda consulta faz referência a seus resultados para que a computação DW possa ser usada. Para fontes SQL, qualquer transformação que faça parte da consulta nativa é suportada.

Quando você carrega diretamente a consulta para um destino de saída, somente os destinos Lakehouse têm suporte no momento. Se você quiser usar outro destino de saída, poderá preparar a consulta primeiro e fazer referência a ela mais tarde.

Como usar a cópia rápida

  1. Navegue até o ponto de extremidade do Fabric apropriado.

  2. Navegue até um workspace premium e crie um fluxo de dados Gen2.

  3. Na guia Página Inicial do novo fluxo de dados, selecione Opções:

    Captura de tela mostrando onde selecionar as opções de Fluxos de Dados Gen2 na guia Página Inicial.

  4. Em seguida, escolha a guia Escala na caixa de diálogo Opções e marque a caixa de seleção Permitir o uso de conectores de cópia rápida para ativar a cópia rápida. Em seguida, feche a caixa de diálogo Opções.

    Captura de tela mostrando onde habilitar a cópia rápida na guia Escala da caixa de diálogo Opções.

  5. Selecione Obter dados e, em seguida, escolha a origem do ADLS Gen2 e preencha os detalhes do seu contêiner.

  6. Use a funcionalidade Combinar arquivo.

    Captura de tela mostrando a janela de dados da pasta Visualizar com a opção Combinar realçada.

  7. Para garantir uma cópia rápida, aplique apenas as transformações listadas na seção Suporte ao conector deste artigo. Se você precisar aplicar mais transformações, prepare os dados primeiro e faça referência à consulta posteriormente. Faça outras transformações na consulta referenciada.

  8. (Opcional) Você pode definir a opção Exigir cópia rápida para a consulta clicando com o botão direito do mouse nela para selecionar e habilitar essa opção.

    Captura de tela mostrando onde selecionar a opção Exigir cópia rápida no menu do botão direito do mouse para uma consulta.

  9. (Opcional) Atualmente, você só pode configurar um Lakehouse como o destino de saída. Para qualquer outro destino, prepare a consulta e faça referência a ela posteriormente em outra consulta, onde você pode gerar saída para qualquer origem.

  10. Verifique os indicadores de cópia rápida para ver se sua consulta pode ser executada com cópia rápida. Em caso afirmativo, o tipo Mecanismo mostra CopyActivity.

    Captura de tela mostrando os detalhes de atualização indicando que o mecanismo CopyActivity do pipeline foi usado.

  11. Publique o fluxo de dados.

  12. Verifique após a atualização concluída para confirmar que a cópia rápida foi usada.

Como dividir sua consulta para aproveitar a cópia rápida

Para obter um desempenho ideal ao processar grandes volumes de dados com o Dataflow Gen2, use o recurso Cópia Rápida para primeiro ingerir dados em preparo e então transformá-los em escala com a computação SQL DW. Essa abordagem aprimora significativamente o desempenho de ponta a ponta.

Para implementar isso, os indicadores de Cópia Rápida podem orientá-lo a dividir a consulta em duas partes: ingestão de dados para preparo e transformação em grande escala com computação SQL DW. Você é incentivado a enviar por push a maior parte da avaliação de uma consulta para Cópia Rápida que pode ser usada para ingerir seus dados. Quando os indicadores de Cópia Rápida informarem que as etapas que restam não podem ser executadas pela Cópia Rápida, você pode dividir o restante da consulta com preparo habilitado.

Indicadores de diagnóstico de etapa

Indicador Ícone Descrição
Esta etapa será avaliada com cópia rápida O indicador de Cópia Rápida informa que a consulta até esta etapa dá suporte à cópia rápida.
Este passo não é compatível com a cópia rápida O indicador de Cópia Rápida mostra que essa etapa não dá suporte à Cópia Rápida.
A consulta rápida não tem suporte para uma ou mais etapas em sua consulta O indicador de Cópia Rápida mostra que algumas etapas nesta consulta dão suporte à Cópia Rápida, enquanto outras não. Para otimizar, divida a consulta: etapas amarelas (potencialmente compatíveis com Cópia Rápida) e etapas vermelhas (sem suporte).

Diretrizes passo a passo

Depois de concluir sua lógica de transformação de dados no Dataflow Gen2, o indicador de Cópia Rápida avalia cada etapa para determinar quantas etapas podem aproveitar a Cópia Rápida para obter melhor desempenho.

No exemplo a seguir, a última etapa é mostrada em vermelho, indicando que a etapa com Agrupar por não tem suporte da Copia Rápida. No entanto, todas as etapas anteriores destacadas em amarelo podem ser potencialmente suportadas pelo Fast Copy.

Captura de tela mostrando a primeira consulta.

Neste momento, se você publicar e executar diretamente seu Fluxo de Dados Gen2, ele não usará o mecanismo de Cópia Rápida para carregar seus dados como a imagem abaixo:

Captura de tela mostrando o resultado sem cópia rápida habilitada.

Para usar o mecanismo de Cópia Rápida e melhorar o desempenho do seu Fluxo de Dados Gen2, você pode dividir sua consulta em duas partes: ingestão de dados para preparo e transformação em grande escala com computação SQL DW, como a seguir:

  1. Remova as transformações (mostrando vermelho) que não são compatíveis com a Cópia Rápida, juntamente com o destino (se definido).

  2. O indicador cópia rápida agora mostra verde para as etapas restantes, o que significa que sua primeira consulta pode aproveitar a Cópia Rápida para obter melhor desempenho.

    Selecione Ação para sua primeira consulta e, em seguida, escolha Habilitar Preparo e Referência.

    Captura de tela mostrando a segunda consulta.

  3. Em uma nova consulta referenciada, leia a transformação "Agrupar por" e o destino (se aplicável).

    Captura de tela mostrando a terceira consulta.

  4. Publique e atualize o Dataflow Gen2. Agora você verá duas consultas em seu Dataflow Gen2 e a duração geral é reduzida em grande parte.

    • A primeira consulta ingere dados na área de preparo usando Cópia Rápida.

    • A segunda consulta executa transformações em grande escala usando a computação SQL DW.

      Captura de tela mostrando o resultado da consulta.

    A primeira consulta:

    Captura de tela mostrando o resultado da ingestão.

    A segunda consulta:

    Captura de tela mostrando o resultado da transformação.

Limitações conhecidas

  1. Um gateway de dados local versão 3000.214.2 ou mais recente é necessário para dar suporte à Cópia Rápida.
  2. Não há suporte para o gateway de VNet.
  3. Não há suporte para gravar dados em uma tabela existente no Lakehouse.
  4. Não há suporte para esquema fixo.