Conectar-se a tabelas do Delta no Azure Data Lake Storage
Conecte-se a dados em tabelas Delta e os traga para o Dynamics 365 Customer Insights - Data.
Principais motivos para se conectar a dados armazenados no formato Delta:
- Importe diretamente dados formatados em Delta para economizar tempo e esforço.
- Elimine os custos de computação e armazenamento associados à transformação e ao armazenamento de uma cópia dos dados do lakehouse.
- Aumente automaticamente a confiabilidade da ingestão de dados no Customer Insights - Data oferecida pelo controle de versão Delta.
Recursos e versões do Databricks compatíveis
O Customer Insights - Data dá suporte a recursos do Databricks com um "minReaderVersion" 2 ou anteriores. Os recursos do Databricks que exigem o leitor Databricks versão 3 ou posteriores não são compatíveis. A tabela mostra os recursos compatíveis e não compatíveis do Databricks.
Recursos com suporte | Recursos não compatíveis |
---|---|
Funcionalidade básica | Vetores de exclusão |
Alterar feed de dados | Clustering do Liquid |
Verificar restrições | Gravação de recursos da tabela |
Mapeamento de colunas | TimestampNTZ |
Gerar colunas | Ampliação do tipo |
Colunas de identidade | Variante |
Acompanhamento da linha | |
Leitura de recursos da tabela | |
UniForm |
Saiba mais: Como o Databricks gerencia a compatibilidade de recursos do Delta Lake?.
Pré-requisitos
O Azure Data Lake Storage deve estar no mesmo locatário e na mesma região do Azure do Customer Insights - Data.
Para se conectar ao armazenamento protegido por firewalls, Configurar links privados do Azure.
A entidade de serviço do Customer Insights - Data deve ter permissões de Colaborador de Dados do Blob de Armazenamento para ter acesso à conta de armazenamento. Para obter mais informações, consulte Conceder permissões à entidade de serviço para acessar a conta de armazenamento.
O usuário que configura ou atualiza a fonte de dados precisa de, pelo menos, permissões de Leitor de Dados do Blob de Armazenamento na conta do Azure Data Lake Storage.
Os dados armazenados em serviços online podem ser armazenados em um local diferente daquele onde os dados são processados ou armazenados. Ao importar ou se conectar a dados armazenados em serviços online, você concorda que os dados podem ser transferidos. Saiba mais na Central de Confiabilidade da Microsoft.
O Customer Insights - Data dá suporte ao leitor Databricks versão 2. As tabelas delta que usam recursos que exigem o leitor Databricks versão 3 ou superior não são compatíveis. Saiba mais: Recursos do Databricks compatíveis.
As tabelas Delta devem estar em uma pasta no contêiner de armazenamento e não podem estar no diretório raiz do contêiner. Por exemplo:
storageaccountcontainer/ DeltaDataRoot/ ADeltaTable/ _delta_log/ 0000.json 0001.json part-0001-snappy.parquet part-0002-snappy.parquet
- Os dados no Azure Data Lake Storage devem estar em tabelas Delta. O Customer Insights - Data depende da propriedade version no histórico da tabela para identificar as alterações mais recentes para processamento incremental.
Conectar-se aos dados Delta no Azure Data Lake Storage
Acesse Dados>Fontes de dados.
Selecione Adicionar uma fonte de dados.
Selecione Tabelas Delta do Azure Data Lake.
Insira um Nome da fonte de dados e uma Descrição opcional. O nome é referenciado em processos downstream e não será possível alterá-lo após a criação da fonte de dados.
Escolha uma das opções a seguir para Conectar seu armazenamento usando.
- Assinatura do Azure: selecione Subscrição e, em seguida, Grupo de recursos e Conta de armazenamento.
- Recurso do Azure: insira o ID do recurso.
Escolha o nome do Contêiner que contém a pasta dos dados.
Opcionalmente, se você quiser ingerir dados de uma conta de armazenamento por meio de um Link Privado do Azure, selecione Habilitar Link Privado. Para obter mais informações, vá até Links Privados.
Navegue até a pasta que contém os dados em tabelas Delta e os selecione. Em seguida, selecione Próximo. Uma lista de tabelas disponíveis é exibida.
Selecione as tabelas que deseja incluir.
Para tabelas selecionadas nas quais uma chave primária não esteja definida, Obrigatório é exibido em Chave primária. Para cada uma destas tabelas:
- Selecione Obrigatória. O painel Editar tabela é exibido.
- Escolha a Chave primária. A chave primária é um atributo exclusivo da tabela. Para um atributo ser uma chave primária válida, ele não deve ter valores duplicados, valores ausentes ou valores nulos. Os atributos de tipo de dados de cadeia de caracteres, inteiro e GUID são compatíveis como chaves primárias.
- Selecione Fechar para salvar e fechar o painel.
Para habilitar a criação de perfil de dados em qualquer uma das colunas, selecione o número de Colunas para a tabela. A página Gerenciar atributos é exibida.
- Selecione Criação de perfil de dados para toda a tabela ou para colunas específicas. Por padrão, nenhuma tabela está habilitada para criação de perfil de dados.
- Escolha Concluído.
Selecione Salvar. A página Fontes de dados abre mostrando a nova fonte de dados no status Atualizando.
Gorjeta
Existem status para tarefas e processos. A maioria dos processos depende de outros processos upstream, como atualizações de fontes de dados e perfis de dados.
Selecione o status para abrir o painel Detalhes de progresso e exibir o progresso das tarefas. Para cancelar o trabalho, selecione Cancelar trabalho na parte inferior do painel.
Em cada tarefa, você pode selecionar Ver detalhes para obter mais informações sobre o andamento, como tempo de processamento, a data do último processamento e possíveis erros e avisos aplicáveis associados à tarefa ou ao processo. Selecione Exibir status do sistema na parte inferior do painel para ver outros processos no sistema.
O carregamento de dados pode levar algum tempo. Após uma atualização bem-sucedida, os dados ingeridos podem ser revisados na página Tabelas.
Gerenciar alterações feitas no esquema
Quando uma coluna é adicionada ou removida do esquema de uma fonte de dados de pastas Delta, o sistema executa uma atualização completa dos dados. As atualizações completas demoram mais para processar todos os dados do que as atualizações incrementais.
Adicionar uma coluna
Quando uma coluna é adicionada à fonte de dados, as informações são anexadas automaticamente aos dados no Customer Insights - Data assim que ocorre uma atualização. Se a unificação já estiver configurada para a tabela, a nova coluna deverá ser adicionada ao processo de unificação.
Na etapa Dados do cliente, escolha Selecione tabelas e colunas e a nova coluna.
Na etapa Exibição de dados unificada, verifique se a coluna não foi excluída do perfil do cliente. Selecione Excluído e leia a coluna.
Na etapa Executar atualizações feitas no perfil unificado, selecione Unificar perfis e dependências de cliente.
Alterar ou remover uma coluna
Quando uma coluna é removida de uma fonte de dados, o sistema verifica dependências em outros processos. Se houver uma dependência das colunas, o sistema vai parar a atualização e apresentar um erro indicando as dependências que devem ser removidas. Essas dependências são exibidas em uma notificação para ajudar você a localizar e removê-las.
Validar uma alteração no esquema
Após a atualização da fonte de dados, vá até a página Dados>Tabelas. Selecione a tabela da fonte de dados e verifique o esquema.
Viagem no tempo delta lake e atualizações de dados
A viagem no tempo delta lake é a capacidade de consultar versões da tabela com base em um carimbo de data/hora ou um número de versão. As alterações feitas nas pastas Delta têm versões, e o Customer Insights - Data usa as versões de pasta Delta para controlar quais dados processar. Em uma atualização regular da tabela delta, os dados são extraídos de todas as versões da tabela de dados desde a atualização mais recente. Contanto que todas as versões estejam presentes, o Customer Insights - Data pode processar apenas os elementos alterados e oferecer resultados mais rápidos. Saiba mais sobre viagem no tempo.
Por exemplo, se tiver sido sincronizado pela última vez com a versão 23 dos dados da pasta Delta, o Customer Insights – Data deverá encontrar a versão 23 e possivelmente versões subsequentes disponíveis. Se as versões de dados esperadas não estiverem disponíveis, a sincronização de dados vai falhar e exigir uma atualização de dados completa manual. A sincronização de dados poderá falhar se os dados da pasta Delta forem excluídos e, então, recriados. Ou se o Customer Insights - Data não conseguir se conectar às pastas Delta por um longo período enquanto as versões avançavam.
Para evitar a necessidade de uma atualização de dados completa, é recomendável manter uma lista de pendências de histórico razoável, como 15 dias.
Executar manualmente uma atualização de dados completa em uma pasta de tabela Delta
Uma atualização completa utiliza todos os dados de uma tabela no formato Delta e os recarrega a partir da versão zero (0) da tabela Delta. As alterações feitas no esquema de pasta Delta disparam uma atualização completa automática. Para disparar manualmente uma atualização completa, execute as etapas a seguir.
Acesse Dados>Fontes de dados.
Selecione a fonte de dados Tabelas Delta do Azure Data Lake.
Selecione a tabela que você deseja atualizar. O painel Editar tabela é exibido.
Selecione Executar atualização completa única.
Selecione Salvar para executar a atualização. A página Fontes de dados é aberta mostrando a fonte de dados no status Atualizando, mas somente a tabela selecionada está sendo atualizada.
Repita o processo para outras tabelas, se aplicável.
Falha na sincronização de dados
A sincronização de dados poderá falhar se os dados da pasta Delta forem excluídos e, então, recriados. Ou se o Customer Insights - Data não conseguir se conectar às pastas Delta por um longo período enquanto as versões avançavam. Para minimizar o impacto quando uma falha no pipeline de dados intermitente cria a necessidade de uma atualização completa, é recomendável manter uma lista de pendências histórica razoável, como 15 dias.