Compartilhar via


Análise e informações personalizadas (pré-visualização)

As análises e informações personalizadas referem-se a dados, ferramentas e plataformas que permitem aos utilizadores empresariais aceder, analisar e gerar informações a partir de dados de forma independente. A aplicação de governação de dados do Microsoft Purview publica o modelo de domínio de metadados nos Recursos de Infraestrutura OneLake e AdlsG2 (armazenamento do Azure Data Lake), permitindo que os clientes analisem e gerem informações ao trazerem as suas próprias ferramentas e computação. A análise self-service dos metadados de governação de dados é valiosa para impulsionar a melhoria contínua da gestão do estado de funcionamento do património de dados dos clientes e promover uma cultura condicionada por dados em toda a organização ao democratizar o acesso às informações do património de dados e à gestão da saúde.

Componentes principais

  • Modelo de Dados: Modelo 3NF com domínios e detalhes de dimensões
  • Metadados: Metadados de governação de dados que incluem:
    • Domínios de governação
    • produtos de dados
    • recursos de dados
    • termos do glossário
    • pedido de subscrição
    • regras de qualidade de dados
    • dimensões
    • factos de qualidade dos dados (contagens de passagem e falha)

Benefícios

  • Capacitação: Capacita os profissionais de dados, proprietários de produtos de dados, responsáveis pelos dados e analistas a explorar metadados de governação de dados e ligar metadados de várias origens para obter informações.
  • Flexibilidade e Eficiência: O cliente conseguirá criar relatórios personalizados para além de relatórios desativados na gestão do estado de funcionamento.
  • Agilidade: Permite que as organizações de clientes respondam mais rapidamente a problemas e remediação da gestão do estado de funcionamento.
  • Rentável: Reduz a necessidade de configurar plataformas e ferramentas de compilação. Todos os dados estão disponíveis no OneLake e o cliente poderá utilizar as ferramentas disponíveis (modelo semântico de recursos de infraestrutura, relatórios PBI, Fluxo de dados e bloco de notas) no OneLake.

Relatórios atualmente disponíveis (desativados)

Eis os relatórios disponíveis. Estes relatórios não são personalizáveis.

  • Recursos clássicos – uma descrição geral dos recursos por tipo e coleção, e a sua status de curadoria.
  • Adoção clássica do catálogo – para compreender rapidamente como o Catálogo Unificado está a ser utilizado. o seu glossário, fornecendo uma snapshot de termos e os respetivos status.
  • Classificações clássicas – uma descrição geral dos recursos classificados e dos tipos de classificações.
  • Gestão de dados clássica – uma descrição geral dos recursos classificados e dos tipos de classificações.
  • Glossário clássico - saúde e utilização de termos do glossário.
  • Etiquetas de confidencialidade clássicas – uma descrição geral dos recursos que têm etiquetas de confidencialidade aplicadas e os tipos de etiquetas aplicados.
  • Governação de dados – o relatório de estado de funcionamento da governação de dados permite à sua equipa controlar rapidamente o progresso do estado de funcionamento e identificar áreas que precisam de mais trabalho.
  • Estado de funcionamento da qualidade dos dados – relatórios de desempenho das dimensões de qualidade dos dados e das regras de qualidade dos dados.

Captura de ecrã a mostrar informações de metadados do Purview.

Modelo de dados para metadados de análise self-service

O modelo de domínio 3NF faz parte do processo de normalização na estrutura da base de dados relacional, que garante que a base de dados está livre de redundância e atualiza anomalias. Um esquema de base de dados está no Terceiro Formulário Normal se cumprir os requisitos da primeira e segunda Forms Normais e todos os seus atributos estiverem funcionalmente dependentes apenas da chave primária. O objetivo do modelo de domínio 3NF é utilizado para estruturar dados de forma a minimizar a duplicação e garantir a integridade dos dados. Concentra-se em dividir dados em tabelas relacionadas mais pequenas, onde cada informação é armazenada apenas uma vez.

Características:

  • Eliminação das Dependências Transitivas: os atributos não chave não devem depender de outros atributos não chave.
  • Agrupamento Lógico: os dados são agrupados logicamente em domínios com base na respetiva função ou significado.
  • Entity-Relationship Diagramas (ERDs): normalmente utilizados para representar modelos de domínio 3NF, mostrando como as entidades se relacionam entre si.
Nome da tabela Descrição Chaves de relação
Estado de Aprovisionamento da Política de Acesso As informações sobre o estado de Aprovisionamento são armazenadas nesta tabela. ProvisioningStateId
Tipo de Recurso da Política de Acesso As informações de recursos porlich do Access são armazenadas nesta tabela. ResourceTypeId
Conjunto de Políticas de Acesso As informações gerais sobre a política de acesso, os detalhes dos casos de utilização de políticas e onde a política foi aplicada são armazenadas nesta tabela. AccessPolicySetId, ResourceTypeId, ProvisioningStateId
Classificação As informações de classificação de recursos de dados são armazenadas nesta tabela. ClassificationId
Caso de Utilização de Acesso Personalizado As informações do caso de utilização do acesso são armazenadas nesta tabela. AccessPolicySetId
Recurso de Dados O nome do recurso de dados, a descrição e as informações de origem são armazenados nesta tabela. DataAssetId, AccountId, DataAssetTypeId
Coluna de Recurso de Dados O nome da coluna do recurso de dados, a descrição da coluna e as referências são armazenados nesta tabela. DataAssetId, ColumnId, DataAssetTypeId, DataTypeId, AccountId
Atribuição de Classificação de Colunas de Recursos de Dados As chaves de referência relacionadas com a atribuição de classificação de dados são armazenadas nesta tabela. DataAssetId, ColumnId, ClassificationId
Atribuição de Domínio do Recurso de Dados As informações relacionadas com a atribuição de domínio de governação de recursos de dados estão disponíveis nesta tabela. DataAssetId, BusinessDomainId
Proprietário do Recurso de Dados Informações do proprietário do recurso de dados armazenadas nesta tabela. DataAssetOwnerId
Atribuição do Proprietário do Recurso de Dados As informações de atribuição do proprietário do recurso de dados são armazenadas nesta tabela. DataAssetId, DataAssetOwnerId
Tipo de Dados do Tipo de Recurso de Dados As informações do tipo de recurso de dados são armazenadas nesta tabela. DataTypeId, DataAssetTypeId
Produto de Dados Nome do produto de dados, descrição, casos de utilização, status e outras informações relevantes armazenadas nesta tabela. DataProductId, DataProductTypeId, AccountId
Atribuição de Recursos do Produto de Dados As informações de atribuição de produtos de dados e recursos de dados são armazenadas nesta tabela. DataProductId, DataAssetId
Atribuição de Domínio de Governação de Produtos de Dados As informações de atribuição de domínio de governação e produto de dados são armazenadas nesta tabela. DataProductId, BusinessDomainId
Documentação do Produto de Dados As informações de referência da documentação do produto de dados são armazenadas nesta tabela. DataProductId, DocumentationId
Proprietário do Produto de Dados As informações do proprietário do produto de dados são armazenadas nesta tabela. DataProductId, DataProductOwnerId
Estado do Produto de Dados Informações relacionadas com produtos de dados status (como publicado ou rascunho) armazenadas nesta tabela. DataProductStatusId
Termos de Utilização do Produto de Dados As informações dos termos de utilização do produto de dados são armazenadas nesta tabela. DataProductId, TermOfUsedId, DataAssetId
Tipo de Produto de Dados As informações sobre os tipos de produtos de dados – Principal, Referência, Operacional, etc. são armazenadas nesta tabela. DataProductTypeId
Frequência de Atualização do Produto de Dados As informações sobre a frequência com que os dados deste produto de dados são atualizados são armazenadas nesta tabela. UpdateFrequencyId
Execução da Regra de Recurso de Qualidade de Dados Resultados de análise da qualidade dos dados armazenados nesta tabela RuleId, DataAssetId, JobExecutionId
Execução de Tarefas de Qualidade de Dados A execução da tarefa de qualidade de dados status é armazenada nesta tabela. JobExecutionId
Regra de Qualidade dos Dados As informações sobre as regras de qualidade dos dados são armazenadas nesta tabela. RuleId, RuleTypeId, BusinessDomainId, DataProductId, DataAssetId
Execução de Colunas de Regra de Qualidade de Dados As informações sobre as regras de qualidade de dados passam e a contagem de falhas, a classificação da qualidade dos dados ao nível das colunas e incluindo os detalhes de execução da tarefa de qualidade de dados são armazenadas nesta tabela. RuleId, DataAssetId, ColumnId
Tipo de Regra de Qualidade de Dados O tipo de regra de qualidade de dados e as dimensões associadas são armazenados nesta tabela. RuleTypeId
Pedido de Subscrição de Dados Informações sobre subscritores de dados, políticas aplicadas, status de pedidos de subscrição e outras informações relevantes armazenadas nesta tabela. SubscriberRequestId
Termo do Glossário As informações sobre o termo glossário, descrição e status geral do termo glossário são armazenadas nesta tabela. GlossaryTermId, ParentGlossaryTermId, AccountId
Atribuição de Domínio de Governação de Termos do Glossário As informações sobre os estados e a atribuição de domínios de governação de termos do glossário são armazenadas nesta tabela. GlossaryTermId, BusinessDomainId
Atribuição de Produto de Dados de Termos do Glossário As informações sobre a atribuição de produtos de dados do termo glossário são armazenadas nesta tabela. GlossaryTermId, DataProductId
Aprovador do Conjunto de Políticas O conjunto de políticas e as informações do aprovador são armazenados nesta tabela. SubscriberRequestId, AccessPolicySetId
Relação As informações sobre o tipo de origem e as informações de destino são armazenadas nesta tabela. AccountId, SourceId, TargetId

Subscrever metadados do Catálogo do Microsoft Purview para o OneLake de Recursos de Infraestrutura

Pode subscrever os metadados de governação de dados do Microsoft Purview para análise e obter informações ao seguir estes passos:

  1. Selecione Definições no painel esquerdo, selecione Catálogo Unificado e, em seguida, selecione integrações de soluções.

    Captura de ecrã que mostra como navegar na página da subscrição.

  2. Selecione Editar.

  3. Adicione o Tipo de armazenamento e Ativou a configuração.

  4. Adicionar URL de Localização (exemplo: https://onelake.dfs.fabric.microsoft.com/workspace name/lakehouse name/Files/purviewmetadata)

    • Selecione Propriedades para copiar o URL.

Captura de ecrã que mostra como configurar o URL 1 dos recursos de infraestrutura.

  • Copie o URL da página Propriedades .

Captura de ecrã que mostra como configurar o URL 2 dos recursos de infraestrutura.

  1. Adicionar o nome da pasta no final do URL – exemplo: /DEH (ver a captura de ecrã)

  2. Conceda contribuidor acessos à Identidade de Serviço (MSI) de Gestão do Microsoft Purview para a área de trabalho de recursos de infraestrutura.

  3. Testar a ligação.

    Captura de ecrã que mostra como configurar a ligação de subscrição.

  4. Selecione Guardar para guardar a configuração para publicar metadados do Purview na sua área de trabalho do OneLake.

Criar um modelo semântico no OneLake

Um modelo semântico no contexto de dados e análise refere-se a uma representação estruturada de dados que define o significado, as relações e as regras num domínio específico. Fornece uma camada de abstração que ajuda os utilizadores a compreender e interagir com dados complexos, tornando-os mais intuitivos e acessíveis, especialmente no contexto de business intelligence (BI) e plataformas de análise. Um modelo semântico é sempre necessário antes de ser possível criar relatórios. No armazém, um utilizador pode adicionar objetos de armazém – tabelas ou vistas ao modelo semântico predefinido do Power BI. Também podem adicionar outras propriedades de modelação semântica, como hierarquias e descrições. Estas propriedades são então utilizadas para criar as tabelas do modelo semântico do Power BI. Os utilizadores também podem remover objetos do modelo semântico predefinido do Power BI.

Para criar um modelo semântico a partir do modelo de domínio de metadados de Governação de Dados do Microsoft Purview:

  1. Abra um armazém na área de trabalho Recursos de Infraestrutura.

  2. Publicar os ficheiros do modelo de domínios em tabelas delta

    1. Selecione o botão de reticências (...)
    2. Selecione **Carregar para Tabelas > Nova tabela
    3. Novo nome de tabela pré-preenchido
    4. Selecionar Tipo de ficheiro parquet

    Captura de ecrã que mostra como publicar na tabela delta a partir do parquet manualmente.

  3. Também pode utilizar o atalho para atalho do modelo de domínio do OneLake e do OneLake

    1. Selecione o botão de reticências (...) de Tabelas
    2. Selecione Novo Atalho e selecione Microsoft OneLake na página Novas Origens de atalho.
    3. Selecionar tabela de modelo de domínios para atalho

    Captura de ecrã que mostra como publicar na tabela delta através de atalho.

Depois de publicar todos os ficheiros em tabelas delta manualmente ou através de atalho, pode adicionar as tabelas delta ao modelo semântico.

  1. Mude para a página de ponto final de análise do SQL a partir da página Lakehouse.
  2. Selecione Relatórios no canto superior esquerdo da página de ponto final de análise do SQL .
  3. Selecione Gerir modelo semântico predefinido.
  4. Selecione as tabelas das Tabelas dbo > que pretende adicionar ao modelo semântico para relatórios.

Captura de ecrã que mostra como adicionar a tabela ao modelo semântico manualmente.

Para adicionar objetos como tabelas ou vistas ao modelo semântico predefinido do Power BI, selecione Atualizar automaticamente o modelo semântico.

Captura de ecrã a mostrar o modelo semântico de análise self-service.

Subscrever metadados do Catálogo do Microsoft Purview para o armazenamento do AdlsG2

Pode subscrever os metadados de governação de dados do Microsoft Purview para publicar e armazenar no armazenamento do AdlsG2 para análise e obter informações ao seguir estes passos:

  1. Selecione Definições no painel esquerdo, selecione Catálogo Unificado e, em seguida, selecione integrações de soluções.

    Captura de ecrã que mostra como navegar na página de subscrição do adlsg2.

  2. Selecione Editar.

  3. Selecione Tipo de armazenamento. e Ativou a configuração.

  4. Adicione o URL de Localização, tem de ser o caminho do AdlsG2 + "/(nome do contentor)"

    1. Aceda a portal.azure.com
    2. Selecionar armazenamento adlsg2 (Home adlsg2 > )
    3. Aceda a DefiniçõesPontos Finais> e selecione Ponto final primário do data lake storage.
  5. Conceder acesso de Contribuidor de Dados do Blob de Armazenamento ao microsoft Purview Manage Service Identity (MSI) ao contentor do AdlsG2

  6. Testar a ligação.

    Procurar o modelo

  7. Selecione o separador Guardar para guardar a configuração para publicar o modelo de domínio no seu armazenamento adlsg2.

Rever os dados e o modelo publicados

  1. Abrir portal.azure.com

  2. Selecione o seu armazenamento adlsg2

  3. selecione o contentor que adicionou com o ponto final adlsg2 no Purview

  4. Procure a lista de ficheiros delta parquet publicados no contentor.

  5. Procure metadados e modelos publicados (veja as imagens abaixo).

    Captura de ecrã que mostra como configurar a ligação de subscrição no contentor adlsg2.

    Procurar os ficheiros do modelo

Criar um relatório do Power BI

O Power BI está integrado nativamente em toda a experiência de Recursos de Infraestrutura. Esta integração nativa inclui um modo exclusivo, denominado DirectLake, para aceder aos dados do lakehouse para proporcionar a experiência de consulta e relatórios mais eficaz. O DirectLake é uma nova capacidade inovadora que lhe permite analisar modelos semânticos muito grandes no Power BI. Com o DirectLake, carrega ficheiros formatados em parquet diretamente a partir de um data lake sem ter de consultar um armazém de dados ou ponto final lakehouse e sem ter de importar ou duplicar dados para um modelo semântico do Power BI. O DirectLake é um caminho rápido para carregar os dados do data lake diretamente para o motor do Power BI, pronto para análise.

No modo DirectQuery tradicional, o motor do Power BI consulta diretamente os dados da origem para cada execução de consulta e o desempenho da consulta depende da velocidade de obtenção de dados. O DirectQuery elimina a necessidade de copiar dados, garantindo que quaisquer alterações na origem são imediatamente refletidas nos resultados da consulta.

Para obter mais detalhes , siga a orientação: como criar um relatório do Power BI no Microsoft Fabric.

Importante

  • O ciclo de atualização predefinido é de 24 em 24 horas.
  • O MSI do Purview precisa de contribuidor acesso à área de trabalho Recursos de Infraestrutura se estiver a subscrever metadados do Microsoft Purview para publicar no seu mapa de trabalho de recursos de infraestrutura.
  • O MSI do Purview precisa de acesso de Contribuidor de Dados do Blob de Armazenamento ao seu Azure Data Lake Storage Gen2 se estiver a subscrever metadados do Purview para publicar no contentor adlsg2.

Observação

  • O agendamento da tarefa de atualização de dados ainda não é suportado.
  • A vNet ainda não é suportada.