Partilhar via


Ligar a tabelas Delta no Azure Data Lake Storage

Ligar a dados em tabelas Delta e trazê-los para o Dynamics 365 Customer Insights - Data.

Razões-chave para ligar a dados armazenados em formato Delta:

  • Importe diretamente dados formatados em Delta para poupar tempo e esforço.
  • Elimine os custos de computação e armazenamento associados à transformação e ao armazenamento de uma cópia dos dados do seu lakehouse.
  • Melhore automaticamente a fiabilidade da ingestão de dados para o Customer Insights - Data fornecidos pelo controlo de versões Delta.

Funcionalidades e versões suportadas do Databricks

O Customer Insights - Data suporta funcionalidades do Databricks com um 'minReaderVersion' de 2 ou anterior. As funcionalidades do Databricks que exigem a versão 3 ou posterior do leitor do Databricks não são suportadas. A tabela mostra as funcionalidades do Databricks com e sem suporte.

Funcionalidades suportadas Funcionalidades não suportadas
Funcionalidade básica Vetores de eliminação
Alterar feed de dados Agrupamento de líquidos
Verificar restrições Escrita de funcionalidades de tabela
Mapeamento de colunas TimestampNTZ
Gerar colunas Alargamento de tipos
Colunas de identidade Variante
Monitorização de linhas
Leitura de funcionalidades de tabela
UniForm

Mais informações: Como é que o Databricks gere a compatibilidade de caraterísticas do Delta Lake?.

Pré-requisitos

  • O Azure Data Lake Storage tem de estar no mesmo inquilino e região do Azure que o Customer Insights - Data.

  • Para se ligar ao armazenamento protegido por firewalls, Configure Azure Private Links.

  • O principal de serviço do Customer Insights - Data tem de ter as permissões de Contribuidor de Dados de Blobs de Armazenamento para aceder à conta de armazenamento. Para mais informações, consulte Conceder permissões ao principal de serviço para aceder à conta de armazenamento.

  • O utilizador que configura ou atualiza a ligação à origem de dados necessita de, pelo menos, permissões de Leitor de Dados de Blobs de Armazenamento na conta do Azure Data Lake Storage.

  • Os dados armazenados em serviços online podem ser armazenados numa localização diferente do local onde os dados são tratados ou armazenados. Ao importar, ou ligar a, os dados armazenados em serviços online, concorda que os dados podem ser transferidos. Saiba mais no Centro de Fidedignidade da Microsoft.

  • O Customer Insights - Data suporta a versão 2 do leitor Databricks. Não são suportadas tabelas Delta que utilizam caraterísticas que requeiram a versão 3 ou posterior do leitor do Databricks. Saiba mais: Funcionalidades suportadas do Databricks.

  • As tabelas Delta têm de estar numa pasta no contentor de armazenamento e não podem estar no diretório raiz do contentor. Por exemplo:

    storageaccountcontainer/
        DeltaDataRoot/
           ADeltaTable/
                 _delta_log/
                     0000.json
                     0001.json
                 part-0001-snappy.parquet
                 part-0002-snappy.parquet
    
  • Os dados no seu Azure Data Lake Storage têm de estar em tabelas Delta. O Customer Insights - Data depende da propriedade de versão no histórico da tabela para identificar as alterações mais recentes para processamento incremental.

Ligar a dados Delta a partir do Azure Data Lake Storage

Nomes de conexão de dados, caminhos de dados, como pastas num contentor e nomes de tabela devem usar nomes que comecem com uma letra. Os nomes só podem conter letras, números e underscore (_). Não são suportados carateres especiais.

  1. Aceda a Dados>Origens de dados.

  2. Selecione Adicionar uma origem de dados.

  3. Selecione Tabelas Delta do Azure Data Lake.

    Caixa de diálogo para introduzir detalhes de ligação para o Delta Lake.

  4. Introduza um Nome de origem de dados e uma Descrição opcional. O nome é referenciado em processos a jusante e não é possível alterá-lo depois de criar a origem de dados.

  5. Escolha uma das seguintes opções para Ligar o armazenamento utilizando.

    • Subscrição do Azure: selecione a Subscrição e, em seguida, o Grupo de recursos e a Conta de armazenamento.
    • Recurso do Azure: introduza o ID do Recurso.
  6. Escolha o nome do Contentor que contém a pasta dos seus dados.

  7. Opcionalmente, se pretender ingerir dados de uma conta de armazenamento através de uma Azure Private Link, selecione Ativar Private Link. Para obter mais informações, aceda a Private Links.

  8. Navegue para a pasta que contém os dados em tabelas Delta e selecione-a. Em seguida, selecione Seguinte. É apresentada uma lista de tabelas disponíveis.

  9. Selecione as tabelas que pretende incluir.

  10. Para tabelas selecionadas onde uma chave primária não está definida, é apresentado Obrigatório sob Chave primária. Para cada uma destas tabelas:

    1. Selecione Obrigatória. É apresentado o painel Editar tabela.
    2. Escolha a Chave primária. A chave primária é um atributo exclusivo da tabela. Para que um atributo seja uma chave primária válida, não deve incluir valores duplicados, valores em falta ou valores nulos. Os atributos de cadeia, número inteiro e tipo de dados GUID são suportados como chaves primárias.
    3. Selecione Fechar para guardar e fechar o painel.

    Caixa de diálogo a mostrar Obrigatório para Chave primária

  11. Para ativar a análise para otimização em qualquer uma das colunas, selecione o número de Colunas para a tabela. É apresentada a página Gerir atributos.

    Caixa de diálogo para selecionar a análise para otimização de dados.

    1. Selecione Análise para otimização de dados para a tabela toda ou para colunas específicas. Por predefinição, nenhuma tabela está ativada para a análise para otimização de dados.
    2. Selecione Concluído.
  12. Selecione Guardar. A página Origens de dados é aberta a mostrar a origem de dados novas no estado A atualizar.

    Sugestão

    Existem estados para tarefas e processos. A maioria dos processos depende de outros processos de origem, tais como origens de dados e atualizações da criação de perfis de dados.

    Selecione o estado para abrir o painel Detalhes do progresso e ver o progresso das tarefas. Para cancelar a tarefa, selecione Cancelar tarefa na parte inferior do painel.

    Em cada tarefa, pode selecionar Ver detalhes para obter mais informações sobre o progresso, tais como o tempo de processamento, a data do último processamento, e quaisquer erros e avisos aplicáveis associados à tarefa ou ao processo. Selecione Ver estado do sistema na parte inferior do painel para ver outros processos no sistema.

O carregamento de dados pode levar tempo. Após uma atualização bem-sucedida, os dados ingeridos podem ser revistos na página Tabelas.

Gerir alterações de esquema

Quando uma coluna é adicionada ou removida do esquema de uma origem de dados das pastas Delta, o sistema executa uma atualização completa dos dados. A atualização completa demora mais tempo a processar todos os dados do que uma atualização incremental.

Adicionar uma coluna

Quando uma coluna é adicionada à origem de dados, as informações são anexadas automaticamente aos dados no Customer Insights - Data quando a atualização ocorrer. Se a unificação já estiver configurada para a tabela, a nova coluna tem de ser adicionada ao processo de unificação.

  1. A partir do passo Dados do cliente, selecione Selecionar tabelas e colunas e selecione a nova coluna.

  2. No passo Vista de dados unificados, certifique-se de que a coluna não é excluída do perfil do cliente. Selecione Excluídos e volte a adicionar a coluna.

  3. No passo Executar atualizações para o perfil unificado, selecione Unificar perfis de cliente e dependências.

Alterar ou remover uma coluna

Quando uma coluna é removida de uma origem de dados, o sistema verifica por dependências noutros processos. Se as colunas tiverem uma dependência na aplicação, o sistema interrompe a atualização e fornece um erro que indica que as dependências têm de ser removidas. Estas dependências são apresentadas numa notificação para o ajudar a localizar e removê-las.

Validar uma alteração ao esquema

Após a atualização da origem de dados, aceda à página Dados>Tabelas. Selecione a tabela para a origem de dados e verifique o esquema.

Atualizações de tempo de viagem e de dados do Delta lake

O tempo de viagem do Delta Lake é a capacidade de consultar através de versões de tabela com base num carimbo de data/hora ou número de versão. As alterações a pastas Delta têm versões e o Customer Insights - Data usa as versões da pasta Delta para monitorizar que dados processar. Numa atualização regular da tabela delta, os dados são obtidos de todas as versões da tabela de dados desde a última atualização. Desde que todas as versões estejam presentes, o Customer Insights - Data pode processar apenas os elementos alterados e entregar resultados mais rápidos. Obter mais informações sobre o tempo de viagem.

Por exemplo, se o Customer Insights - Data foi sincronizado pela última vez com a versão 23 dos dados da sua pasta Delta, espera encontrar a versão 23 e, possivelmente, versões subsequentes disponíveis. Se as versões de dados esperadas não estiverem disponíveis, a sincronização de dados falhará e exigirá uma atualização manual completa dos dados. A sincronização de dados poderá falhar se os dados da pasta Delta foram eliminados e depois recriados. Ou se o Customer Insights - Data não conseguiu ligar-se às suas pastas Delta por um longo período enquanto as versões avançaram.

Para evitar a necessidade de uma atualização completa dos dados, recomendamos que mantenha um registo do histórico razoável, como 15 dias.

Executar manualmente uma atualização completa de dados numa pasta da tabela Delta

Uma atualização completa pega em todos os dados de uma tabela no formato Delta e recarrega-os da versão zero (0) da tabela Delta. As alterações ao esquema da pasta Delta acionam uma atualização completa automática. Para acionar manualmente uma atualização completa, efetue os passos que se seguem.

  1. Aceda a Dados>Origens de dados.

  2. Selecione a origem de dados das Tabelas Delta do Azure Data Lake.

  3. Selecione a tabela que pretende atualizar. É apresentado o painel Editar tabela.

    Edite o painel da tabela para selecionar uma atualização completa única.

  4. Selecione Executar uma atualização completa única.

  5. Selecione Guardar para executar a atualização. A página Origens de dados é aberta a mostrar a origem de dados no estado A atualizar, mas apenas a tabela selecionada está a ser atualizada.

  6. Repita o processo para outras tabelas, se aplicável.

Falha de sincronização de dados

A sincronização de dados poderá falhar se os dados da pasta Delta foram eliminados e depois recriados. Ou se o Customer Insights - Data não conseguiu ligar-se às suas pastas Delta por um longo período enquanto as versões avançaram. Para minimizar o impacto onde uma falha intermitente do pipeline de dados cria a necessidade de uma atualização completa, recomendamos que mantenha um registo de tarefas pendentes histórico razoável, como 15 dias.

Próximos passos