Conectar-se a tabelas do Common Data Model no Azure Data Lake Storage

Artigo
03/04/2025

Observação

O Azure Active Directory agora é o Microsoft Entra ID. Saiba mais

Ingira dados no Dynamics 365 Customer Insights - Data usando a conta do Azure Data Lake Storage com tabelas do Common Data Model. A ingestão de dados pode ser completa ou incremental.

Pré-requisitos

A conta do Azure Data Lake Storage devem ter o namespace hierárquico habilitado. Os dados devem ser armazenados em um formato de pasta hierárquico que defina a pasta raiz e possua subpastas para cada tabela. As subpastas podem ter dados completos ou pastas de dados incrementais.
Para se autenticar usando uma entidade de serviço do Microsoft Entra, verifique se ela está configurada no locatário. Para obter mais informações, consulte Conectar-se a uma conta do Azure Data Lake Storage usando uma entidade de serviço do Microsoft Entra.
Para se conectar ao armazenamento protegido por firewalls, Configurar links privados do Azure.
Se o data lake tiver conexões de link privado atualmente, o Customer Insights - Data também deverá se conectar usando um link privado, independentemente da configuração de acesso à rede.
O Azure Data Lake Storage ao qual você deseja se conectar e do qual deseja ingerir dados deve estar na mesma região do Azure que o ambiente do Dynamics 365 Customer Insights. Não há suporte para conexões com uma pasta do Common Data Model de um data lake em uma região diferente do Azure. Para conhecer a região do Azure do ambiente, vá até Configurações>Sistema>Sobre em Customer Insights - Data.
Os dados armazenados em serviços online podem ser armazenados em um local diferente daquele onde os dados são processados ou armazenados. Ao importar ou se conectar a dados armazenados em serviços online, você concorda que os dados podem ser transferidos. Saiba mais na Central de Confiabilidade da Microsoft.
A entidade de serviço do Customer Insights - Data deve estar em uma das funções a seguir para ter acesso à conta de armazenamento. Para obter mais informações, consulte Conceder permissões à entidade de serviço para acessar a conta de armazenamento.
- Leitor de Dados do Storage Blob
- Proprietário de Dados do Storage Blob
- Colaborador de Dados do Storage Blob
Ao se conectar ao armazenamento do Azure usando a opção de assinatura do Azure, o usuário que configura a conexão da fonte de dados precisa de pelo menos as permissões Colaborador de dados do Storage Blob na conta de armazenamento.
Ao se conectar ao armazenamento do Azure usando a opção de recurso do Azure, o usuário que configura a conexão da fonte de dados precisa de pelo menos a permissão da ação Microsoft.Storage/storageAccounts/read na conta de armazenamento. Uma função interna do Azure que inclui essa ação é a função Leitor. Para só limitar acesso à ação necessária, crie uma função personalizada do Azure que só inclua essa ação.
Para obter um desempenho ideal, o tamanho de uma partição deve ser 1 GB ou menos, e o número dos arquivos de partição em uma pasta não deve exceder 1.000.
Os dados no Data Lake Storage devem seguir o padrão do Common Data Model padrão para armazenamento dos dados e ter o manifesto do Common Data Model para representar o esquema dos arquivos de dados (*.csv ou *.parquet). O manifesto deve fornecer os detalhes das tabelas, como colunas de tabela e tipos de dados, e o local do arquivo de dados e o tipo de arquivo. Para obter mais informações, consulte O manifesto do Common Data Model. Se o manifesto não estiver presente, os usuários Administradores com acesso de Proprietário de Dados de Blob de Armazenamento ou Colaborador de Dados de Blob de Armazenamento poderão definir o esquema ao ingerir os dados.

Observação

Se algum dos campos nos arquivos .parquet tiver o tipo de dados Int96, os dados podem não ser exibidos na página Tabelas. Recomendamos o uso de tipos de dados padrão, como o formato do carimbo de data/hora Unix (que representa o tempo como o número de segundos a partir de 1º de janeiro de 1970, à meia-noite UTC).

Limitações

O Customer Insights - Data não dá suporte a colunas do tipo decimal com precisão superior a 16.

Conectar-se ao Azure Data Lake Storage

Nomes de conexão de dados, caminhos de dados, como pastas dentro de um contêiner, e nomes de tabela devem usar nomes que comecem com uma letra. Os nomes só podem conter letras, números e sublinhados (_). Os caracteres especiais não são compatíveis.

Acesse Dados>Fontes de dados.
Selecione Adicionar uma fonte de dados.
Selecione Tabelas de Common Data Model do Azure Data Lake.
Insira um Nome da fonte de dados e uma Descrição opcional. O nome é referenciado em processos downstream e não será possível alterá-lo após a criação da fonte de dados.
Escolha uma das opções a seguir para Conectar seu armazenamento usando. Para obter mais informações, consulte Conectar-se a uma conta do Azure Data Lake Storage usando uma entidade de serviço do Microsoft Entra.
- Recurso do Azure: insira o ID do recurso.
- Assinatura do Azure: selecione Subscrição e, em seguida, Grupo de recursos e Conta de armazenamento.
Observação

Você precisa de uma das seguintes funções para o contêiner a fim de criar a fonte de dados:
- O Leitor de Dados do Blob de Armazenamento é suficiente para ler a partir de uma conta de armazenamento e ingerir os dados no Customer Insights - Data.
- O Proprietário ou o Colaborador de Dados do Blob de Armazenamento será necessário se você quiser editar diretamente os arquivos de manifesto no Customer Insights - Data.
Ter a função na conta de armazenamento vai oferecer a mesma função em todos os contêineres.
Escolha o nome do Contêiner que contém os dados e o esquema (arquivo model.json ou manifest.json) de onde importar dados.

Observação

Qualquer arquivo model.json ou manifest.json associado a outra fonte de dados no ambiente não será mostrado na lista. Contudo, o mesmo arquivo model.json file ou manifest.json pode ser usado para fontes de dados em vários ambientes.
Opcionalmente, se você quiser ingerir dados de uma conta de armazenamento por meio de um Link Privado do Azure, selecione Habilitar Link Privado. Para obter mais informações, vá até Links Privados.
Para criar um novo esquema, vá para Criar um novo arquivo de esquema.
Para usar um esquema existente, navegue até a pasta que contém o arquivo model.json ou manifest.cdm.json. Você pode pesquisar em um diretório para localizar o arquivo.
Selecione o arquivo json e selecione Avançar. Uma lista de tabelas disponíveis é exibida.
Selecione as tabelas que deseja incluir.

Dica

Para editar uma tabela em uma interface de edição do JSON, selecione a tabela e, depois, Editar arquivo de esquema. Faça as alterações e selecione Salvar.
Para tabelas selecionadas que exigem ingestão incremental, Obrigatório é exibido sob Atualização incremental. Para cada uma dessas tabelas, consulte Configurar uma atualização incremental para fontes de dados do Azure Data Lake.
Para tabelas selecionadas onde uma chave primária não tiver sido definida, Obrigatório é exibido sob Chave primária. Para cada uma destas tabelas:
1. Selecione Obrigatória. O painel Editar tabela é exibido.
2. Escolha a Chave primária. A chave primária é um atributo exclusivo da tabela. Para um atributo ser uma chave primária válida, ele não deve ter valores duplicados, valores ausentes ou valores nulos. Os atributos de tipo de dados de cadeia de caracteres, inteiro e GUID são compatíveis como chaves primárias.
3. Opcionalmente, altere o padrão de partição.
4. Selecione Fechar para salvar e fechar o painel.
Selecione o número de Colunas para cada tabela incluída. A página Gerenciar atributos é exibida.
1. Crie colunas, edite ou exclua colunas existentes. Você pode alterar o nome, o formato de dados ou adicionar um tipo semântico.
2. Para habilitar análises e outros recursos, selecione Criação de perfil de dados para toda a tabela ou para colunas específicas. Por padrão, nenhuma tabela está habilitada para criação de perfil de dados.
3. Escolha Concluído.
Selecione Salvar. A página Fontes de dados abre mostrando a nova fonte de dados no status Atualizando.

Gorjeta

Existem status para tarefas e processos. A maioria dos processos depende de outros processos upstream, como atualizações de fontes de dados e perfis de dados.

Selecione o status para abrir o painel Detalhes de progresso e exibir o progresso das tarefas. Para cancelar o trabalho, selecione Cancelar trabalho na parte inferior do painel.

Em cada tarefa, você pode selecionar Ver detalhes para obter mais informações sobre o andamento, como tempo de processamento, a data do último processamento e possíveis erros e avisos aplicáveis associados à tarefa ou ao processo. Selecione Exibir status do sistema na parte inferior do painel para ver outros processos no sistema.

O carregamento de dados pode levar algum tempo. Após uma atualização bem-sucedida, os dados ingeridos podem ser revisados na página Tabelas.

Criar um arquivo de esquema

Selecione Criar arquivo de esquema.
Insira um nome para o arquivo e selecione Salvar.
Selecione Nova tabela. O painel Nova Tabela é exibido.
Insira o nome da tabela e escolha a Localização de arquivos de dados.
- Vários arquivos .csv ou .parquet: navegue até a pasta raiz, selecione o tipo de padrão e insira a expressão.
- Arquivos .csv ou .parquet únicos: navegue até o arquivo .csv ou .parquet e selecione-o.
Selecione Salvar.
Selecione definir os atributos para adicionar manualmente os atributos ou selecione gerá-los automaticamente. Para definir os atributos, insira um nome, selecione o formato de dados e o tipo semântico opcional. Para atributos gerados automaticamente:
1. Depois que os atributos forem gerados automaticamente, selecione Revisar atributos. A página Gerenciar atributos é exibida.
2. Garanta que o formato de dados esteja correto para cada atributo.
3. Para habilitar análises e outros recursos, selecione Criação de perfil de dados para toda a tabela ou para colunas específicas. Por padrão, nenhuma tabela está habilitada para criação de perfil de dados.
4. Escolha Concluído. A página Selecionar tabelas é exibida.
Continue adicionando tabelas e colunas, se aplicável.
Depois que todas as tabelas tiverem sido adicionadas, selecione Incluir para incluir as tabelas na ingestão de fonte de dados.
Para tabelas selecionadas que exigem ingestão incremental, Obrigatório é exibido sob Atualização incremental. Para cada uma dessas tabelas, consulte Configurar uma atualização incremental para fontes de dados do Azure Data Lake.
Para tabelas selecionadas onde uma chave primária não tiver sido definida, Obrigatório é exibido sob Chave primária. Para cada uma destas tabelas:
1. Selecione Obrigatória. O painel Editar tabela é exibido.
2. Escolha a Chave primária. A chave primária é um atributo exclusivo da tabela. Para um atributo ser uma chave primária válida, ele não deve ter valores duplicados, valores ausentes ou valores nulos. Os atributos de tipo de dados de cadeia de caracteres, inteiro e GUID são compatíveis como chaves primárias.
3. Opcionalmente, altere o padrão de partição.
4. Selecione Fechar para salvar e fechar o painel.
Selecione Salvar. A página Fontes de dados abre mostrando a nova fonte de dados no status Atualizando.

Gorjeta

Existem status para tarefas e processos. A maioria dos processos depende de outros processos upstream, como atualizações de fontes de dados e perfis de dados.

Selecione o status para abrir o painel Detalhes de progresso e exibir o progresso das tarefas. Para cancelar o trabalho, selecione Cancelar trabalho na parte inferior do painel.

Em cada tarefa, você pode selecionar Ver detalhes para obter mais informações sobre o andamento, como tempo de processamento, a data do último processamento e possíveis erros e avisos aplicáveis associados à tarefa ou ao processo. Selecione Exibir status do sistema na parte inferior do painel para ver outros processos no sistema.

O carregamento de dados pode levar algum tempo. Após uma atualização bem-sucedida, os dados ingeridos podem ser revisados na página Dados>Tabelas.

Editar uma fonte de dados do Azure Data Lake Storage

Você pode atualizar a opção Conecte-se à conta de armazenamento usando. Para obter mais informações, consulte Conectar-se a uma conta do Azure Data Lake Storage usando uma entidade de serviço do Microsoft Entra. Para conectar-se a um contêiner diferente na sua conta de armazenamento ou alterar o nome da conta, crie uma nova conexão da fonte de dados.

Acesse Dados>Fontes de dados. Ao lado da fonte de dados que você deseja atualizar, selecione Editar
Altere qualquer uma das seguintes informações:
- Descrição
- Conecte seu armazenamento usando e informações de conexão. Você não pode alterar informações de Contêiner ao atualizar a conexão.
  Nota
  
  Uma das funções a seguir deve ser atribuída à conta de armazenamento ou contêiner:
  - Leitor de Dados do Storage Blob
  - Proprietário de Dados do Storage Blob
  - Colaborador de Dados do Storage Blob
- Habilite o Link Privado se quiser ingerir dados de uma conta de armazenamento por meio de um Link Privado do Azure. Para obter mais informações, vá até Links Privados.
Selecione Avançar.
Altere um dos seguintes:
- Navegue até um arquivo model.json ou manifest.json diferente com um conjunto diferente de tabelas do contêiner.
- Para adicionar outras tabelas para ingestão, selecione Nova tabela.
- Para remover quaisquer tabelas já selecionadas se não houver dependências, selecione a tabela e escolha Excluir.
  
  Importante
  
  Se houver dependências no arquivo model.json ou manifest.json existente e no conjunto de tabelas, você verá uma mensagem de erro e não será possível selecionar outro arquivo model.json ou manifest.json. Remova essas dependências antes de alterar o arquivo model.json ou manifest.json ou criar uma fonte de dados com o arquivo model.json ou manifest.json que deseja usar para evitar a remoção das dependências.
- Para alterar a localização do arquivo de dados ou a chave primária, selecione Editar.
- Para alterar os dados de ingestão incremental, consulte Configurar uma atualização incremental para fontes de dados do Azure Data Lake.
- Altere apenas o nome da tabela para corresponder ao nome da tabela no arquivo .json.
  
  Observação
  
  Sempre mantenha o nome da tabela igual ao nome da tabela no arquivo model.json ou manifest.json após a ingestão. O Customer Insights - Data valida todos os nomes de tabela com model.json ou manifest.json durante cada atualização do sistema. Se o nome de uma tabela for alterado, ocorrerá um erro porque o Customer Insights - Data não consegue encontrar o novo nome da tabela no arquivo .json. Se o nome de uma tabela ingerida tiver sido alterado acidentalmente, edite o nome da tabela de acordo com o nome no arquivo .json.
Selecione Colunas para adicioná-las ou alterá-las ou para habilitar a criação de perfil de dados. Em seguida, selecione Concluído.
Selecione Salvar para aplicar as alterações e voltar à página Fontes de dados.

Gorjeta

Existem status para tarefas e processos. A maioria dos processos depende de outros processos upstream, como atualizações de fontes de dados e perfis de dados.

Selecione o status para abrir o painel Detalhes de progresso e exibir o progresso das tarefas. Para cancelar o trabalho, selecione Cancelar trabalho na parte inferior do painel.

Em cada tarefa, você pode selecionar Ver detalhes para obter mais informações sobre o andamento, como tempo de processamento, a data do último processamento e possíveis erros e avisos aplicáveis associados à tarefa ou ao processo. Selecione Exibir status do sistema na parte inferior do painel para ver outros processos no sistema.

Compartilhar via