O que é o trabalho de cópia (versão prévia) no Data Factory para o Microsoft Fabric
O Data Factory no Fabric capacita os usuários a integrar perfeitamente dados de mais de 100 conectores internos - fontes e destinos - por meio de uma interface visualmente intuitiva. A atividade de cópia, trabalhando em pipelines de dados, facilita a ingestão de dados. Enquanto isso, o Dataflow Gen2 dá suporte a transformações de dados e os pipelines orquestram o fluxo de integração.
Vantagens do trabalho de cópia
Embora a atividade Copy em pipelines de dados manipule a ingestão de dados com operações em massa/lote, a criação de pipelines no Data Factory ainda é um desafio para vários usuários que são novos na área, com uma curva de aprendizado mais acentuada. Portanto, estamos entusiasmados em introduzir o trabalho de cópia, elevando a experiência de ingestão de dados para um processo mais simplificado e amigável de qualquer fonte para qualquer destino. Agora, copiar seus dados é mais fácil do que nunca. Além disso, o trabalho de cópia dá suporte a vários estilos de entrega de dados, incluindo cópia em lote e cópia incremental, oferecendo flexibilidade para atender às suas necessidades específicas.
Algumas vantagens do trabalho de cópia em relação a outros métodos de movimentação de dados incluem:
- Experiência Intuitiva: experimente a cópia de dados contínua sem compromissos, tornando-a mais fácil do que nunca.
- Eficiência: habilite a cópia incremental sem esforço, reduzindo a intervenção manual. Essa eficiência se traduz em menos utilização de recursos e durações de cópia mais rápidas.
- Flexibilidade: enquanto aproveita a flexibilidade, você também tem a flexibilidade de controlar a movimentação de dados. Escolha quais tabelas e colunas copiar, mapeie os dados, defina o comportamento de leitura/gravação e defina agendas que atendam às suas necessidades, seja para uma tarefa única ou uma operação recorrente.
- Desempenho robusto: uma configuração sem servidor que habilita a transferência de dados com paralelismo em grande escala, maximizando a taxa de transferência de movimentação de dados para seu sistema.
Conectores com suporte
Atualmente, você pode usar o trabalho de cópia para transferência de dados na nuvem ou cópia de dados de um armazenamento de dados local por meio do gateway. O trabalho de cópia dá suporte aos seguintes armazenamentos de dados como origem e destino:
- Azure SQL DB
- SQL Server local
- Fabric Warehouse
- Fabric Lakehouse
- Amazon S3
- Azure Data Lake Storage Gen2
- Armazenamento do Blobs do Azure
- Amazon RDS para SQL Server
A equipe do produto está explorando mais suporte ao conector, portanto, fique atento para atualizações.
Comportamento da cópia
Você pode escolher entre os seguintes estilos de entrega de dados.
- Modo de cópia completo: cada execução de trabalho de cópia copia todos os dados da origem para o destino de uma só vez.
- Modo de cópia incremental: a execução inicial do trabalho copia todos os dados e o trabalho subsequente só copia as alterações desde a última execução. Os dados alterados são acrescentados ao repositório de destino.
Você também pode escolher como os dados são gravados no repositório de destino.
Por padrão, o trabalho de cópia acrescenta dados ao seu destino, para que você não perca nenhum histórico de alterações. Porém, você também pode ajustar o comportamento de gravação para upsert ou substituir.
- Ao copiar dados para o repositório: novas linhas das tabelas ou arquivos são copiadas para novos arquivos no destino. Se um arquivo com o mesmo nome já existir no repositório de destino, ele será substituído.
- Ao copiar dados para o banco de dados: novas linhas das tabelas ou arquivos são acrescentadas a tabelas de destino. Você pode alterar o comportamento de gravação para upsert (no BD SQL ou SQL Server) ou substituir (em tabelas do Fabric Lakehouse).
Coluna incremental
No modo de cópia incremental, você precisará selecionar uma coluna incremental para cada tabela para identificar as alterações. O trabalho de cópia usa essa coluna como uma marca d'água, comparando seu valor com o mesmo da última execução para copiar apenas os dados novos ou atualizados. A coluna incremental deve ser um carimbo de data/hora ou um INT crescente.
Disponibilidade de região
O trabalho de cópia tem a mesma disponibilidade regional que o pipeline.
Preços
O trabalho de cópia usa o mesmo medidor de cobrança: Movimentação de Dados, com uma taxa de consumo idêntica.