Partilhar via


Capture dados alterados com evolução de esquema do Banco de Dados SQL do Azure para um coletor Delta usando um recurso de captura de dados de alteração

APLICA-SE A: Azure Data Factory Azure Synapse Analytics

Gorjeta

Experimente o Data Factory no Microsoft Fabric, uma solução de análise tudo-em-um para empresas. O Microsoft Fabric abrange tudo, desde a movimentação de dados até ciência de dados, análises em tempo real, business intelligence e relatórios. Saiba como iniciar uma nova avaliação gratuitamente!

Neste artigo, você usa a interface do usuário do Azure Data Factory para criar um recurso CDC (captura de dados de alteração). O recurso recolhe dados alterados de uma origem da Base de Dados SQL do Azure e adiciona-os ao Delta Lake armazenados no Azure Data Lake Storage Gen2, em tempo real. Esta atividade mostra o suporte à evolução do esquema usando um recurso CDC entre a origem e o coletor.

Neste artigo, vai aprender a:

  • Crie um recurso CDC.
  • Faça alterações dinâmicas de esquema em uma tabela de origem.
  • Valide as alterações de esquema no coletor Delta de destino.

Você pode modificar e expandir o padrão de configuração neste artigo.

Pré-requisitos

Antes de iniciar os procedimentos neste artigo, certifique-se de que possui estes recursos:

  • Subscrição do Azure. Se você não tiver uma assinatura do Azure, crie uma conta gratuita do Azure.
  • Banco de dados SQL. Você usa o Banco de Dados SQL do Azure como um armazenamento de dados de origem. Se você não tiver um banco de dados SQL, crie um no portal do Azure.
  • Conta de armazenamento. Você usa o Delta Lake armazenado no Azure Data Lake Storage Gen2 como um armazenamento de dados de destino. Se você não tiver uma conta de armazenamento, consulte Criar uma conta de armazenamento para conhecer as etapas para criar uma.

Criar um artefato CDC

  1. Vá para o painel Autor no seu data factory. Abaixo de Pipelines, um novo artefato de nível superior chamado Change Data Capture (visualização) é exibido.

    Captura de tela de um novo artefato de nível superior para captura de dados de alteração no painel Recursos de fábrica.

  2. Passe o cursor sobre Alterar captura de dados (visualização) até que três pontos apareçam. Em seguida, selecione Alterar ações de captura de dados (visualização).

    Captura de tela do botão para alterar ações de captura de dados que aparecem sobre o novo artefato de nível superior.

  3. Selecione Novo CDC (visualização). Esta etapa abre um submenu para iniciar o processo guiado.

    Captura de ecrã de uma lista de ações de captura de dados de alteração.

  4. Você será solicitado a nomear seu recurso CDC. Por padrão, o nome é "adfcdc" com um número que aumenta em 1. Você pode substituir esse nome padrão por um nome que você escolher.

    Captura de ecrã da caixa de texto para atualizar o nome de um recurso.

  5. Use a lista suspensa para escolher sua fonte de dados. Para este artigo, selecione Banco de Dados SQL do Azure.

    Captura de tela do submenu processo guiado com opções de origem em uma lista suspensa.

  6. Você será solicitado a selecionar um serviço vinculado. Crie um novo serviço vinculado ou selecione um existente.

    Captura de tela da caixa para escolher ou criar um serviço vinculado.

  7. Depois de selecionar um serviço vinculado, você será solicitado a selecionar tabelas de origem. Use as caixas de seleção para selecionar as tabelas de origem e, em seguida, selecione o valor da coluna incremental usando a lista suspensa.

    Captura de tela que mostra a seleção de uma tabela de origem e uma coluna incremental.

    O painel lista apenas tabelas que suportaram tipos de dados de coluna incremental.

    Nota

    Para habilitar o CDC com evolução de esquema em uma fonte do Banco de Dados SQL do Azure, escolha tabelas baseadas em colunas de marca d'água em vez de tabelas habilitadas para SQL CDC nativo.

  8. Depois de selecionar as tabelas de origem, selecione Continuar para definir o destino de dados.

    Captura de ecrã do botão Continuar no processo guiado para selecionar um destino de dados.

  9. Selecione um valor de Tipo de destino usando a lista suspensa. Para este artigo, selecione Delta.

    Captura de tela de um menu suspenso de todos os tipos de destino de dados.

  10. Você será solicitado a selecionar um serviço vinculado. Crie um novo serviço vinculado ou selecione um existente.

    Captura de ecrã da caixa para escolher ou criar um serviço ligado ao seu destino de dados.

  11. Selecione sua pasta de dados de destino. Pode utilizar:

    • O botão Procurar em Caminho base de destino, que ajuda a preencher automaticamente o caminho de navegação de todas as novas tabelas selecionadas para uma origem.
    • O botão Procurar fora para selecionar individualmente o caminho da pasta.

    Captura de ecrã de um ícone de pasta para procurar um caminho de pasta.

  12. Depois de selecionar um caminho de pasta, selecione o botão Continuar .

    Captura de ecrã do botão Continuar no processo guiado para avançar para o passo seguinte.

  13. Uma nova guia para capturar dados de alteração é exibida. Esta guia é o estúdio CDC, onde você pode configurar seu novo recurso.

    Captura de tela do estúdio de captura de dados de alteração.

    Um novo mapeamento é criado automaticamente para você. Você pode atualizar as seleções Tabela de origem e Tabela de destino para seu mapeamento usando as listas suspensas.

    Captura de tela do mapeamento de origem para destino no estúdio de captura de dados de alteração.

  14. Depois de selecionar as tabelas, as colunas delas são mapeadas por padrão com a alternância de mapa automático ativada. O mapa automático mapeia automaticamente as colunas por nome no coletor, seleciona novas alterações de coluna quando o esquema de origem evolui e flui essas informações para os tipos de coletor suportados.

    Captura de tela da alternância para mapeamento automático ativada.

    Nota

    A evolução do esquema funciona apenas quando a alternância de mapa automático está ativada. Para saber como editar mapeamentos de coluna ou incluir transformações, consulte Capturar dados alterados com um recurso de captura de dados de alteração.

  15. Selecione o link Chaves e, em seguida, selecione a coluna Chaves a ser usada para controlar as operações de exclusão.

    Captura de ecrã da hiperligação para ativar a seleção da coluna Chaves.

    Captura de ecrã a mostrar a seleção de uma coluna Teclas para a origem selecionada.

  16. Após a conclusão dos mapeamentos, defina a latência CDC usando o botão Definir latência .

    Captura de tela do botão Definir latência na parte superior da tela.

  17. Selecione a latência do CDC e, em seguida, selecione Aplicar para fazer as alterações.

    Por padrão, a latência é definida como 15 minutos. O exemplo neste artigo usa a opção em tempo real para latência. A latência em tempo real capta continuamente as alterações nos dados de origem em intervalos inferiores a 1 minuto.

    Para outras latências (por exemplo, se você selecionar 15 minutos), a captura de dados de alteração processará os dados de origem e coletará todos os dados alterados desde o último tempo processado.

    Captura de ecrã das opções para definir a latência.

  18. Depois de concluir a configuração do CDC, selecione Publicar tudo para publicar as alterações.

    Captura de tela do botão de publicação na parte superior da tela.

    Nota

    Se você não publicar suas alterações, não poderá iniciar seu recurso CDC. O botão Iniciar na próxima etapa não estará disponível.

  19. Selecione Iniciar para começar a executar a captura de dados de alteração.

    Captura de tela do botão Iniciar na parte superior da tela.

Agora que a captura de dados de alteração está em execução, você pode:

  • Use a página de monitoramento para ver quantas alterações (inserir, atualizar ou excluir) foram lidas e gravadas, juntamente com outras informações de diagnóstico.

    Captura de tela da página de monitoramento de uma captura de dados de alteração selecionada.

    Captura de ecrã da página de monitorização de uma captura de dados de alteração selecionada com uma vista detalhada.

  • Valide se os dados de alteração chegaram ao Delta Lake armazenados no Azure Data Lake Storage Gen2, no formato Delta.

    Captura de ecrã de uma pasta Delta de destino.

  • Valide o esquema dos dados de alteração que chegaram.

    Captura de ecrã de um ficheiro Delta.

Fazer alterações dinâmicas no nível do esquema nas tabelas de origem

  1. Adicione uma nova coluna PersonalEmail à tabela de origem usando uma ALTER TABLE instrução T-SQL, conforme mostrado no exemplo a seguir.

    Captura de ecrã do comando ALTER no Azure Data Studio.

  2. Valide se a nova coluna PersonalEmail aparece na tabela existente.

    Captura de ecrã de um novo design de tabela com uma coluna adicionada para e-mail pessoal.

Validar alterações de esquema no coletor Delta

Confirme se a nova coluna PersonalEmail aparece no coletor Delta. Agora você sabe que os dados de alteração com alterações de esquema chegaram ao destino.

Captura de tela de um arquivo Delta com uma alteração de esquema.