Compartilhar via


Secção 2: Configurar e registar os seus dados

Observação

O Catálogo de Dados do Microsoft Purview está a alterar o nome para Catálogo Unificado do Microsoft Purview. Todas as funcionalidades permanecerão iguais. Verá o nome mudar quando a nova experiência de Governação de Dados do Microsoft Purview estiver geralmente disponível na sua região. Verifique o nome na sua região.

Se não tiver origens de dados disponíveis para análise, pode seguir estes passos para implementar totalmente um exemplo do Azure Data Lake Stroage (ADLS Gen2).

Dica

Se já tiver uma origem de dados no mesmo inquilino que a sua conta do Microsoft Purview, avance para a próxima parte desta secção para analisar os seus recursos.

Num imobiliário, encontra muitos sistemas diferentes em utilização para diferentes aplicações de dados. Existem ambientes de relatórios como Recursos de Infraestrutura e Snowflake onde as equipas utilizam cópias de dados para criar soluções analíticas e alimentar os seus relatórios e dashboards. Existem sistemas de dados operacionais que alimentam as equipas ou os clientes das aplicações para concluir processos empresariais que recolhem ou adicionam dados com base nas decisões tomadas durante o processo.

Para criar um património de dados mais realista, a recomendação é mostrar muitas origens de dados no catálogo, que podem abranger a amplitude de utilizações de dados diferentes que qualquer empresa possa ter. Os tipos de dados necessários para alimentar um caso de utilização podem ser muito diferentes com os utilizadores empresariais que precisam de relatórios e dashboards, os analistas precisam de dimensões e factos em conformidade para criar relatórios, cientistas de dados ou engenheiros de dados precisam de dados de origem não processados provenientes diretamente do sistema que recolhe todos estes dados e mais permitem que diferentes utilizadores vejam a importância de encontrar, compreender e aceder a dados no mesmo local.

Para outros tutoriais para adicionar dados ao seu património, pode seguir estes guias:

Pré-requisitos

  • Subscrição no Azure: Criar a Sua Conta Gratuita do Azure Hoje
  • Microsoft Entra ID do seu inquilino: Microsoft Entra ID Governance
  • Uma Conta do Microsoft Purview
    • Administração acesso à conta do Microsoft Purview (esta é a predefinição se tiver criado a conta do Microsoft Purview. Permissões na nova pré-visualização do portal do Microsoft Purview | Microsoft Learn)
  • Todos os recursos; O Microsoft Purview, a sua origem de dados e Microsoft Entra ID têm de estar no mesmo inquilino da cloud.

Passos para configurar o seu património de dados

Criar e preencher uma conta de armazenamento

  1. Siga este guia para criar uma conta de armazenamento: Criar uma conta de armazenamento para Azure Data Lake Storage Gen2
  2. Crie contentores para o seu novo data lake:
    1. Navegue para a página Descrição geral da nossa Conta de Armazenamento.
    2. Selecione o separador Contentores na secção Armazenamento de dados.
    3. Selecione o botão + Contentor
    4. Atribua o nome "bronze" e selecione o botão Criar
    5. Repita estes passos para criar um contentor "gold"
  3. Transfira alguns dados CSV de exemplo do data.gov: Vacinação Covid-19 E Tendências de Casos por Grupo Etário, Estados Unidos
  4. Carregue o CSV para o contentor com o nome "bronze" na conta de armazenamento que criou.
  5. Selecione o contentor com o nome "bronze" e selecione o botão Carregar .
  6. Procure a localização onde guardou o CSV e selecione o ficheiro covid-19_Vaccination_Case _Trends .
  7. Selecione Carregar.

Criar um Azure Data Factory

Este passo irá demonstrar como os dados se movem entre camadas de um data lake de medalhão e garantir que os dados estão num formato padronizado que os consumidores esperam utilizar. Este é um passo de pré-requisito para executar a Qualidade dos Dados.

  1. Siga este guia para criar um Azure Data Factory: Criar um Azure Data Factory

  2. Copie os dados do CSV no contentor "bronze" para o contentor "gold" como uma tabela de formato Delta com este guia de Azure Data Factory: Transformar dados com um fluxo de dados de mapeamento

  3. Abra a experiência Azure Data Factory (ADF) a partir do portal do Azure ao selecionar o botão Iniciar estúdio no separador Descrição geral do recurso do ADF criado.

    Captura de ecrã a mostrar a iniciação do ADF Studio a partir do portal do Azure.

  4. Selecione o separador Autor no estúdio do ADF.

    Captura de ecrã do autor selecionado no menu de navegação esquerdo do Azure Data Factory.

  5. Selecione o + botão e escolha Fluxo de dados no menu pendente.

    Captura de ecrã do botão para criar um fluxo de dados.

  6. Atribua o nome "CSVtoDeltaC19VaxTrends" ao fluxo de dados.

  7. Selecione Adicionar Origem na caixa vazia.

    Captura de ecrã a mostrar a adição de uma origem de dados para o fluxo de dados.

  8. Defina Definições de origem como:

    1. Nome do fluxo de saída: "C19csv"
    2. Descrição: deixe em branco
    3. Tipo de origem: Inline
    4. Tipo de conjunto de dados inline: Texto Delimitado
    5. Serviço Ligado: selecione o data lake onde armazenou o csv
  9. Defina opções de Origem como:

    1. Modo de ficheiro: Ficheiro
    2. Caminho do ficheiro: /bronze/ Covid-19_Vaccination_Case _Trends
    3. Não permitir ficheiros encontrados: deixe desmarcado
    4. Captura de dados alterados: deixar desmarcada
    5. Tipo de compressão: Nenhum
    6. Codificação: Predefinição(UTF-8)
    7. Delimitador de colunas: Vírgula (,)
    8. Delimitador de linhas: Predefinição(\r, \n ou\r\n)
    9. Caráter de aspas: aspas duplas (")
    10. Caráter de escape: Barra invertida ()
    11. Primeira linha como cabeçalho: SELECIONADO
    12. Deixe o resto como predefinições
  10. Selecione o pequeno + Junto à origem criada e selecione Sink

    Captura de ecrã a mostrar a criação de um sink para o fluxo de dados.

  11. Crie o sink onde o formato e a localização dos dados a armazenar para mover os dados de um csv em "bronze" para uma tabela delta em "gold".

    1. Defina os valores sink (deixe todas as definições como predefinição, a menos que seja especificado)
    2. Tipo de sink: Inline
    3. Tipo de conjunto de dados inline: Delta
    4. Serviço ligado: o mesmo data lake utilizado na origem, porque vamos armazenar num contentor diferente.
  12. Defina os Valores de definição (deixe todas as definições como predefinição, a menos que seja especificado)

    1. Caminho da pasta: Gold/Covid19 Vaccine and Case Trends
  13. Tem de introduzir o valor porque este nome é a forma como queremos que os dados sejam armazenados e não existem para selecionar.

  14. Selecione Validar, esta ação verifica o fluxo de dados e fornece instruções para corrigir eventuais erros.

  15. Selecione Publicar tudo.

    Captura de ecrã a mostrar a publicação do fluxo de dados.

  16. Selecione o + botão e selecione pipeline no menu pendente

    Captura de ecrã a mostrar a criação de um pipeline.

  17. Atribua o nome "CSV ao Delta C19 Vax Trends" ao pipeline

  18. Selecione o fluxo de dados criado nos passos anteriores CSV para Delta (C19VaxTrends) e arraste e largue-o no separador de pipeline aberto.

  19. Selecione Validar

  20. Selecione Publicar

  21. Selecione Depurar (utilizar o runtime de atividade) para executar o pipeline.

    Captura de ecrã a mostrar a execução do pipeline para criar uma tabela delta.

    Dica

    Se ocorrerem erros em espaços ou carateres inadequados para o formato delta: abra o CSV transferido e faça correções. Em seguida, recarregue e substitua o CSV na zona de bronze. Em seguida, volte a executar o pipeline.

  22. Navegue para o contentor gold no data lake e deverá agora ver a nova tabela Delta criada durante o pipeline.

Analisar os recursos

Se ainda não analisou recursos de dados no seu Mapa de Dados do Microsoft Purview, pode seguir estes passos para preencher o mapa de dados.

A análise de origens no seu património de dados recolherá automaticamente os metadados dos recursos de dados (tabelas, ficheiros, pastas, relatórios, etc.) nessas origens. Ao registar uma origem de dados e ao criar a análise, estabelece a propriedade técnica sobre as origens e recursos que são apresentados no catálogo e garante que tem controlo sobre quem pode aceder aos metadados no Microsoft Purview. Ao registar e armazenar origens e recursos ao nível do domínio, serão armazenados no nível mais elevado da hierarquia de acesso. Normalmente, é melhor criar algumas coleções onde irá analisar os metadados do recurso e estabelecer a hierarquia de acesso correta para esses dados.

Se optou por utilizar o Microsoft Fabric ou o SQL, pode utilizar estes guias para fornecer acesso:

Registar o data lake e analisar os seus recursos

  1. No Mapa de Dados do Microsoft Purview no separador domínios, selecione as Atribuições de funções para o domínio (será o nome da conta do Microsoft Purview):

    1. Adicione-se como administrador da origem de dados e curador de dados ao domínio.
      1. Selecione o ícone de pessoa junto à função Administrador da origem de dados.
      2. Pesquise o seu nome tal como está no Microsoft Entra ID (pode exigir que introduza o seu nome completo escrito exatamente como está no Microsoft Entra ID).
      3. Selecione OK.
      4. Repita estes passos para o curador de dados.

    Captura de ecrã a mostrar a adição de permissões de acesso necessárias a uma coleção.

  2. Registar o data lake:

    1. Selecione o separador Origens de dados .
    2. Selecione Registrar.
    3. Selecione o tipo de armazenamento Azure Data Lake Storage Gen2.

    Captura de ecrã a mostrar o registo de uma origem de dados.

  3. Indique os detalhes para ligar:

    1. Subscrição (opcional)
    2. Nome da Origem de Dados (este será o nome da origem do ADLS Gen2)
    3. Coleção onde os metadados de recursos devem ser armazenados (opcional)
    4. Selecione Registar
  4. Assim que o registo da origem de dados estiver concluído, pode configurar a análise. O registo significa que o Microsoft Purview está ligado à origem de dados e colocou-o na coleção correta para propriedade. Em seguida, a análise irá ler os metadados da origem e preencher os recursos no mapa de dados.

  5. Selecione a origem que registou no separador origens de dados

    Captura de ecrã a mostrar a criação de uma análise da origem de dados.

  6. Selecione nova análise e forneça os detalhes:

    1. Utilizar o runtime de integração predefinido para esta análise
    2. A credencial deve ser MICROSOFT Purview MSI (sistema)
    3. O nível de análise é Deteção Automática
    4. Selecione uma coleção ou utilize o domínio (a coleção tem de ser a mesma coleção ou coleção subordinada do local onde a origem de dados foi registada)
    5. Selecione Continuar

    Dica

    Neste momento, o Microsoft Purview irá testar a ligação para validar uma análise. Se não tiver concedido acesso ao leitor MSI do Microsoft Purview na origem de dados, este falhará. Se não for o proprietário da origem de dados ou tiver acesso de utilizador contribuidor a análise falhará, uma vez que espera ter autorização para criar a ligação.

  7. Agora, selecione apenas o contentor "gold" onde colocámos a tabela delta na secção building data do tutorial. Isto impedirá a análise de quaisquer outros recursos de dados que estejam no arquivo de dados.

    1. Se tiver apenas um marcar azul junto a ouro, pode deixar verificações junto a tudo, uma vez que analisará a origem completa e ainda criará os recursos que iremos utilizar e muito mais.
    2. Selecione Continuar
  8. No ecrã selecionar um conjunto de regras de análise, deve utilizar o conjunto de regras de análise predefinido.

  9. Selecione Continuar

  10. Ao definir um acionador de análise, irá definir a frequência da análise para que, à medida que continuar a adicionar recursos de dados ao contentor dourado do lago, continue a preencher o mapa de dados. Selecione Uma Vez.

  11. Selecione Continuar.

  12. Selecione Guardar e Executar. Esta ação irá criar uma análise que só irá ler os metadados do contentor dourado do data lake e preencher a tabela que iremos utilizar na Catálogo de Dados do Microsoft Purview nas secções seguintes. Se selecionar guardar apenas, este não executará a análise e não verá os recursos. Assim que a análise estiver em execução, verá a análise que criou com uma Última execução status de Colocação em Fila. Quando a leitura da análise estiver concluída, os recursos estão prontos para a secção seguinte. Esta operação pode demorar alguns minutos ou horas consoante o número de recursos que tem na sua origem.

Próximas etapas

Secção 3 - Publicar produtos de dados