Partilhar via


Qualidade dos dados do património de dados do Fabric Lakehouse

O OneLake dos Recursos de Infraestrutura é um data lake único, unificado e lógico para toda a sua organização. Um data lake processa grandes volumes de dados de várias origens. Tal como o Microsoft OneDrive, o OneLake vem automaticamente com todos os inquilinos do Microsoft Fabric e foi concebido para ser o único local para todos os seus dados de análise. O OneLake traz clientes:

  • Um data lake para toda a organização
  • Uma cópia dos dados para utilização com vários motores analíticos

O OneLake tem como objetivo dar-lhe o maior valor possível a partir de uma única cópia de dados sem movimento de dados ou duplicação. Já não precisa de copiar dados apenas para utilizá-los com outro motor ou para dividir silos para que possa analisar os dados com dados de outras origens. Pode utilizar o Microsoft Purview para catalogar o património de dados dos recursos de infraestrutura e medir a qualidade dos dados para governar e impulsionar a ação de melhoria.

Pode utilizar o atalho para referenciar dados armazenados noutras localizações de ficheiros. Estas localizações de ficheiros podem estar na mesma área de trabalho ou em diferentes áreas de trabalho, no OneLake ou externas ao OneLake no Azure Data Lake Storage (ADLS), amazon Web Services (AWS) S3 ou Dataverse com mais localizações de destino brevemente. A localização da origem de dados não importa muito, os atalhos do OneLake fazem com que os ficheiros e pastas pareçam que os armazenou localmente. Quando as equipas trabalham independentemente em áreas de trabalho separadas, os atalhos permitem-lhe combinar dados entre diferentes grupos empresariais e domínios num produto de dados virtual para se adequarem às necessidades específicas de um utilizador.

Pode utilizar o espelhamento para reunir dados de várias origens nos Recursos de Infraestrutura. O espelhamento nos Recursos de Infraestrutura é uma solução de baixo custo e de baixa latência para reunir dados de vários sistemas numa única plataforma de análise. Pode replicar continuamente o seu património de dados existente diretamente no OneLake dos Recursos de Infraestrutura, incluindo dados da Base de Dados SQL do Azure, do Azure Cosmos DB e do Snowflake. Com os dados mais atualizados num formato demável no OneLake, agora pode utilizar todos os diferentes serviços nos Recursos de Infraestrutura. Por exemplo, executar análises com o Spark, executar blocos de notas, engenharia de dados, visualizar através de Relatórios do Power BI e muito mais. Em seguida, as tabelas Delta podem ser utilizadas em todos os recursos de infraestrutura, permitindo que os utilizadores acelerem o percurso para os Recursos de Infraestrutura.

Registar o OneLake dos Recursos de Infraestrutura

Para configurar a análise do Mapa de Dados, primeiro tem de registar a origem de dados que pretende analisar. Para analisar uma área de trabalho dos Recursos de Infraestrutura, não existem alterações à experiência existente para registar um inquilino dos Recursos de Infraestrutura como uma origem de dados. Para registar uma nova origem de dados, siga estes passos:

  • No portal do Microsoft Purview, aceda a Mapa de Dados.
  • Selecione Registrar.
  • Em Registar origens , selecione Recursos de Infraestrutura.

Veja as mesmas instruções de configuração entre inquilinos e inquilinos .

Configurar a análise do Mapa de Dados

Para analisar os subartifacts do Lakehouse, não existem alterações à experiência existente no Mapa de Dados para configurar uma análise. Existe outro passo para conceder a credencial de análise com, pelo menos, a função Contribuidor nas áreas de trabalho recursos de infraestrutura para extrair as informações de esquema dos formatos de ficheiro suportados.

Atualmente, apenas o principal de serviço é suportado como método de autenticação. O suporte msi ainda está em atraso.

Veja as mesmas instruções de configuração entre inquilinos e inquilinos .

Configurar a ligação para a análise do Fabric Lakehouse

Depois de registar o Fabric Lakehouse como uma origem, pode selecionar Recursos de Infraestrutura na lista das origens de dados registadas no Mapa de Dados e selecionar Nova análise. Adicione um ID de Origem de dados e siga os passos abaixo:

  1. Criar um grupo de segurança e um principal de serviço

  2. Certifique-se de que adiciona este principal de serviço e a Identidade Gerida do Purview a este grupo de segurança e, em seguida, forneça este grupo de segurança.

  3. Associar o grupo de segurança ao inquilino dos Recursos de Infraestrutura

    1. Inicie sessão no portal de administração do Fabric.
    2. Selecione a página Definições do inquilino. Tem de ser um Administração de Recursos de Infraestrutura para ver a página de definições do inquilino.
    3. Selecione Administração definições > da API Permitir que os principais de serviço utilizem APIs de administração só de leitura.
    4. Selecione Grupos de segurança específicos.
    5. Selecione Administração definições > da API Melhorar as respostas das APIs de administração com metadados detalhados e Melhorar as respostas das APIs de administração com DAX e expressões > de mashup Ative o seletor para permitir que Mapa de Dados do Microsoft Purview detete automaticamente os metadados detalhados dos conjuntos de dados dos Recursos de Infraestrutura como parte das respetivas análises. Depois de atualizar as definições da API Administração no inquilino dos Recursos de Infraestrutura, aguarde cerca de 15 minutos antes de registar uma análise e testar a ligação.
  4. Forneça Administração a permissão da API só de leitura das definições da API para este grupo de segurança.

  5. Adicione SPN ao campo Credencial .

  6. Adicione o nome do recurso do Azure.

    página 1 do mapa de dados de recursos de infraestrutura

  7. Adicione o ID do Inquilino.

  8. Adicione o ID do Principal de Serviço.

  9. Adicione Key Vault ligação.

  10. Adicionar Nome do segredo.

página 2 do mapa de dados de recursos de infraestrutura

Depois de concluir a análise do Mapa de Dados, localize uma instância do Lakehouse no Catálogo unificado.

  1. No portal do Microsoft Purview, abra Catálogo unificado.
  2. Selecione Deteção e, em seguida , Recursos de dados.
  3. Na página Recursos de dados , selecione Microsoft Fabric.
  4. Selecione Áreas de trabalho dos recursos de infraestrutura e, em seguida, selecione uma área de trabalho na lista.
  5. Na página da área de trabalho, localize a instância lakehouse em Nome do item.

Para procurar tabelas lakehouse:

  1. Numa página de área de trabalho, selecione o nome do item Tabelas.
  2. Selecione um recurso de tabela lakehouse listado em Nome do item.
  3. Veja a página de detalhes do recurso para encontrar metadados, como esquema, linhagem e propriedades.

Pré-requisitos de análise da qualidade dos dados do Fabric Lakehouse

  1. Atalho, espelho ou carregue os seus dados para Fabric Lakehouse em formato delta.

Captura de ecrã a mostrar a tabela delta dos recursos de infraestrutura.

Importante

Se tiver adicionado novas tabelas, ficheiros ou novo conjunto de dados ao Fabric Lakehouse através de espelhamento ou atalho, terá de executar uma análise de âmbito do Mapa de Dados para catalogar esses novos conjuntos de dados antes de adicionar esses recursos de dados a um produto de dados para avaliação da qualidade dos dados.

  1. Conceder direito de Contribuidor à área de trabalho do Purview MSI

Captura de ecrã que mostra como conceder contribuidor acesso.

  1. Adicione recursos de dados digitalizados do Lakehouse aos produtos de dados do domínio de governação. Na página de um produto de dados no Catálogo unificado, localize os Recursos de dados e selecione Adicionar recursos de dados. A análise da qualidade dos dados e da criação de dados só pode ser feita para os recursos de dados associados aos produtos de dados no domínio de governação.

Para a análise da qualidade dos dados e da criação de perfis de dados, tem de criar uma ligação de origem de dados, uma vez que são utilizados conectores diferentes para ligar a origem de dados e analisar dados para capturar factos e dimensões de qualidade de dados. Para configurar uma ligação:

  • Em Catálogo unificado, selecione Gestão de estado de funcionamento e, em seguida, selecione Qualidade dos dados.

  • Selecione um domínio de governação e, na lista pendente Gerir, selecione Connections.

  • Selecione Novo para abrir a página de configuração da ligação.

  • Adicione o nome a apresentar da ligação e uma descrição.

  • Adicionar Tipo de origem Recursos de Infraestrutura.

  • Adicione o ID do Inquilino.

  • Adicionar ID da Área de Trabalho

  • Adicionar ID do Lakehouse

  • Adicione Credenciais - ao Microsoft Purview MSI.

    captura de ecrã que mostra onde encontrar a área de trabalho e o ID do lakehouse.

  • Teste a ligação para se certificar de que a ligação configurada é bem-sucedida.

    Captura de ecrã que mostra como configurar a ligação de recursos de infraestrutura.

Importante

  • Para uma análise da qualidade dos dados, o MSI do Microsoft Purview tem de ter contribuidor acesso à área de trabalho Recursos de Infraestrutura para ligar a área de trabalho recursos de infraestrutura. Para conceder acesso contribuidor, abra a área de trabalho Recursos de Infraestrutura, selecione três pontos (...), selecione Acesso à área de trabalho e, em seguida, Adicionar pessoas ou grupo e, em seguida, adicione o MSI do Purview como Contribuidor.
  • As tabelas de recursos de infraestrutura têm de estar no formato Delta ou iceberg.

Análise da criação de perfis e da qualidade dos dados (DQ) para dados no Fabric Lakehouse

Depois de concluída a configuração da ligação com êxito, pode criar perfis, criar e aplicar regras e executar uma análise de qualidade de dados (DQ) dos seus dados no Fabric Lakehouse. Siga a orientação passo a passo descrita abaixo:

  1. Associe uma tabela lakehouse a um produto de dados para curadoria, deteção e subscrição. Saiba como criar e gerir produtos de dados.

Captura de ecrã que mostra a associação de uma tabela lakehouse a um produto de dados.

  1. Tabela Profile Fabric Lakehouse. Saiba como configurar e executar a criação de perfis de dados para um recurso de dados.

Captura de ecrã que mostra o perfil de uma tabela lakehouse.

  1. Configure e execute a análise da qualidade dos dados para medir a qualidade dos dados de uma tabela do Fabric Lakehouse. Saiba como configurar e executar uma análise de qualidade de dados.

Captura de ecrã que mostra a análise de uma tabela lakehouse.

Importante

  • Certifique-se de que os seus dados estão no formato Delta ou iceberg.
  • Certifique-se de que a análise do Mapa de Dados foi executada com êxito. Se não tiver sido, volte a executar a análise.

Limitações

A Qualidade dos Dados para o ficheiro Parquet foi concebida para suportar:

  • Um diretório com o Ficheiro de Peça Parquet. Por exemplo: ./Sales/{Parquet Part Files}. O Nome Completamente Qualificado tem de seguir https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}. Certifique-se de que não existem {n} padrões na estrutura de diretório/subdiretório; Tem de ser um FQN direto que conduza a {SparkPartitions}.
  • Um diretório com Ficheiros Parquet Particionados, particionado por colunas no conjunto de dados, como dados de vendas particionados por ano e mês. Por exemplo: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}.

Ambos os cenários essenciais que apresentam um esquema de conjunto de dados parquet consistente são suportados. Limitação: não foi concebido para ou não suporta N Hierarquias arbitrárias de Diretórios com Ficheiros Parquet. Aconselhamos o cliente a apresentar dados na estrutura construída (1) ou (2). Assim, recomendamos que o cliente siga o padrão parquet suportado ou migre os seus dados para o formato delta compatível com ACID .

Dica

Para o Mapa de Dados

  • Confirme que o SPN tem permissões de área de trabalho.
  • Confirme que a ligação de análise utiliza o SPN.
  • A execução de uma análise completa é sugerida se estiver a configurar uma análise do Lakehouse pela primeira vez.
  • Verifique se os recursos ingeridos foram atualizados/atualizados

Catálogo unificado

  • A ligação DQ tem de utilizar credenciais MSI.
  • Idealmente, crie um novo produto de dados para testar pela primeira vez a análise de DQ de dados do Lakehouse
  • Adicione os recursos de dados ingeridos marcar que os recursos de dados são atualizados.
  • Experimente executar o perfil, se for bem-sucedido, tente executar a regra DQ. se não for bem-sucedido, experimente atualizar o esquema de recursos (esquema de importação da gestão de esquemas de esquema> )
  • Alguns utilizadores também tiveram de criar um novo Lakehouse e dados de exemplo apenas para marcar tudo funciona do zero. Em alguns casos, trabalhar com recursos que foram ingeridos anteriormente no Mapa de Dados não é consistente.

Recursos