Cópia rápida no Dataflows Gen2
Este artigo descreve o recurso de cópia rápida no Dataflows Gen2 para Data Factory no Microsoft Fabric. Os fluxos de dados ajudam na ingestão e transformação de dados. Com a introdução da expansão do fluxo de dados com computação SQL DW, você pode transformar seus dados em escala. No entanto, seus dados precisam ser ingeridos primeiro. Com a introdução da cópia rápida, você pode ingerir terabytes de dados com a experiência fácil de fluxos de dados, mas com o back-end escalável da Atividade Copy do pipeline.
Depois de habilitar esse recurso, os fluxos de dados alternam automaticamente o back-end quando o tamanho dos dados excede um limite específico, sem a necessidade de fazer alterações durante a criação dos fluxos de dados. Após a atualização de um fluxo de dados, você pode verificar o histórico de atualização para ver se a cópia rápida foi usada durante a execução observando o tipo de mecanismo que aparece lá.
Com a opção Exigir cópia rápida ativada, a atualização do fluxo de dados será cancelada se a cópia rápida não for usada. Isso ajuda a evitar que um tempo limite de atualização continue. Esse comportamento também pode ser útil em uma sessão de depuração para testar o comportamento do fluxo de dados com seus dados enquanto reduz o tempo de espera. Usando os indicadores de cópia rápida no painel de etapas de consulta, você pode verificar facilmente se sua consulta pode ser executada com cópia rápida.
Pré-requisitos
- Você deve ter uma capacidade do Fabric.
- Para dados de arquivo, os arquivos estão no formato .csv ou parquet de pelo menos 100 MB e armazenados em um ADLS (Azure Data Lake Storage) Gen2 ou em uma conta de armazenamento de Blobs.
- Para banco de dados, incluindo SQL do Azure, 5 milhões de linhas ou mais de dados na fonte de dados.
Observação
Você pode ignorar o limite para forçar a Cópia Rápida selecionando a configuração "Exigir cópia rápida".
Suporte ao conector
No momento, a cópia rápida tem suporte para os seguintes conectores fluxo de dados Gen2:
- ADLS Gen2
- Armazenamento de Blobs
- Azure SQL DB
- Lakehouse
- PostgreSQL
- SQL Server local
- Warehouse
- Oracle
- Snowflake
A atividade de cópia oferece suporte apenas a algumas transformações ao se conectar a uma fonte de arquivos:
- Combinar arquivos
- Selecionar colunas
- Alterar tipos de dados
- Renomear uma coluna
- Remover uma coluna
Você ainda pode aplicar outras transformações dividindo as etapas de ingestão e transformação em consultas separadas. A primeira consulta realmente recupera os dados e a segunda consulta faz referência a seus resultados para que a computação DW possa ser usada. Para fontes SQL, qualquer transformação que faça parte da consulta nativa é suportada.
Quando você carrega diretamente a consulta para um destino de saída, somente os destinos Lakehouse têm suporte no momento. Se você quiser usar outro destino de saída, poderá preparar a consulta primeiro e fazer referência a ela mais tarde.
Como usar a cópia rápida
Navegue até o ponto de extremidade do Fabric apropriado.
Navegue até um workspace premium e crie um fluxo de dados Gen2.
Na guia Página Inicial do novo fluxo de dados, selecione Opções:
Em seguida, escolha a guia Escala na caixa de diálogo Opções e marque a caixa de seleção Permitir o uso de conectores de cópia rápida para ativar a cópia rápida. Em seguida, feche a caixa de diálogo Opções.
Selecione Obter dados e, em seguida, escolha a origem do ADLS Gen2 e preencha os detalhes do seu contêiner.
Use a funcionalidade Combinar arquivo.
Para garantir uma cópia rápida, aplique apenas as transformações listadas na seção Suporte ao conector deste artigo. Se você precisar aplicar mais transformações, prepare os dados primeiro e faça referência à consulta posteriormente. Faça outras transformações na consulta referenciada.
(Opcional) Você pode definir a opção Exigir cópia rápida para a consulta clicando com o botão direito do mouse nela para selecionar e habilitar essa opção.
(Opcional) Atualmente, você só pode configurar um Lakehouse como o destino de saída. Para qualquer outro destino, prepare a consulta e faça referência a ela posteriormente em outra consulta, onde você pode gerar saída para qualquer origem.
Verifique os indicadores de cópia rápida para ver se sua consulta pode ser executada com cópia rápida. Em caso afirmativo, o tipo Mecanismo mostra CopyActivity.
Publique o fluxo de dados.
Verifique após a atualização concluída para confirmar que a cópia rápida foi usada.
Limitações conhecidas
- Um gateway de dados local versão 3000.214.2 ou mais recente é necessário para dar suporte à Cópia Rápida.
- Não há suporte para o gateway de VNet.
- Não há suporte para gravar dados em uma tabela existente no Lakehouse.
- Não há suporte para esquema fixo.