Qualidade dos dados do património de dados do Fabric Lakehouse (pré-visualização)
O OneLake dos Recursos de Infraestrutura é um data lake único, unificado e lógico para toda a sua organização. Um data Lake processa grandes volumes de dados de várias origens. Tal como o OneDrive, o OneLake vem automaticamente com todos os inquilinos do Microsoft Fabric e foi concebido para ser o único local para todos os seus dados de análise. O OneLake traz clientes:
- Um data lake para toda a organização
- Uma cópia dos dados para utilização com vários motores analíticos
O OneLake tem como objetivo dar-lhe o maior valor possível a partir de uma única cópia de dados sem movimento de dados ou duplicação. Já não precisa de copiar dados apenas para utilizá-los com outro motor ou para dividir silos para que possa analisar os dados com dados de outras origens. Pode utilizar o Microsoft Purview para catalogar o património de dados dos recursos de infraestrutura e medir a qualidade dos dados para governar e impulsionar a ação de melhoria.
Pode utilizar o atalho para referenciar dados armazenados noutras localizações de ficheiros. Estas localizações de ficheiros podem estar na mesma área de trabalho ou em diferentes áreas de trabalho, no OneLake ou externas ao OneLake no Azure Data Lake Storage (ADLS), no AWS S3 ou no Dataverse com mais localizações de destino brevemente. A localização da origem de dados não importa muito, os atalhos do OneLake fazem com que os ficheiros e pastas pareçam que os armazenou localmente. Quando as equipas trabalham independentemente em áreas de trabalho separadas, os atalhos permitem-lhe combinar dados entre diferentes grupos empresariais e domínios num produto de dados virtual para se adequarem às necessidades específicas de um utilizador.
Pode utilizar o espelhamento para reunir dados de várias origens no Espelhamento de Recursos de Infraestrutura nos Recursos de Infraestrutura é uma solução de baixo custo e de baixa latência para reunir dados de vários sistemas numa única plataforma de análise. Pode replicar continuamente o seu património de dados existente diretamente no OneLake dos Recursos de Infraestrutura, incluindo dados da Base de Dados SQL do Azure, do Azure Cosmos DB e do Snowflake. Com os dados mais atualizados num formato queryable no OneLake, pode agora utilizar todos os diferentes serviços nos Recursos de Infraestrutura. Por exemplo, executar análises com o Spark, executar blocos de notas, engenharia de dados, visualizar através de Relatórios do Power BI e muito mais. Em seguida, as tabelas Delta podem ser utilizadas em todos os recursos de infraestrutura, permitindo que os utilizadores acelerem o percurso para os Recursos de Infraestrutura.
Configurar a análise do Mapa de Dados
Para configurar a análise do Mapa de Dados, tem de registar a origem de dados que pretende analisar.
Registar o OneLake dos Recursos de Infraestrutura
Para analisar a área de trabalho recursos de infraestrutura, não existem alterações à experiência existente para registar um inquilino dos Recursos de Infraestrutura como uma origem de dados. Para registar uma nova origem de dados no Catálogo Unificado do Microsoft Purview, siga estes passos:
- Navegue para a sua conta do Microsoft Purview no portal de governação do Microsoft Purview.
- Selecione Mapa de Dados no painel de navegação esquerdo.
- Selecione Registar
- Em Registar origens, selecione Recursos de Infraestrutura
Consulte o mesmo inquilino e entre inquilinos para obter instruções de configuração.
Configurar a análise do Mapa de Dados
Para analisar os subartifacts do Lakehouse, não existem alterações à experiência existente no Purview para configurar uma análise. Existe outro passo para conceder a credencial de análise com, pelo menos, a função Contribuidor nas áreas de trabalho recursos de infraestrutura para extrair as informações de esquema dos formatos de ficheiro suportados.
Atualmente, apenas o principal de serviço é suportado como método de autenticação. O suporte msi ainda está em atraso.
Consulte o mesmo inquilino e entre inquilinos para obter instruções de configuração.
Configurar a ligação para a análise do Fabric Lakehouse
Depois de registar o Fabric Lakehouse como origem, pode selecionar Recursos de Infraestrutura na lista das origens de dados registadas e selecionar Nova análise. Adicione os detalhes da ligação, conforme realçado nas capturas de ecrã abaixo.
- Criar um grupo de segurança e um principal de serviço
- Certifique-se de que adiciona este principal de serviço e a Identidade Gerida do Purview a este grupo de segurança e, em seguida, forneça este grupo de segurança.
- Associar o grupo de segurança ao inquilino dos Recursos de Infraestrutura
- Inicie sessão no portal de administração do Fabric.
- Selecione a página Definições do inquilino. Tem de ser um Administração de Recursos de Infraestrutura para ver a página de definições do inquilino.
- Selecione Administração definições > da API Permitir que os principais de serviço utilizem APIs de administração só de leitura.
- Selecione Grupos de segurança específicos.
- Selecione Administração definições > da API Melhorar as respostas das APIs de administração com metadados detalhados e Melhorar as respostas das APIs de administração com DAX e expressões > de mashup Ative o seletor para permitir que Mapa de Dados do Microsoft Purview detete automaticamente os metadados detalhados dos conjuntos de dados dos Recursos de Infraestrutura como parte das respetivas análises. Depois de atualizar as definições da API Administração no inquilino dos Recursos de Infraestrutura, aguarde cerca de 15 minutos antes de registar uma análise e testar a ligação.
- Forneça Administração permissões de API só de leitura para este grupo de segurança.
- Adicione SPN ao campo Credencial .
- Adicione o nome do recurso do Azure.
- Adicione o ID do Inquilino.
- Adicione o ID do Principal de Serviço.
- Adicione Key Vault ligação.
- Adicionar Nome do segredo.
Após concluir a análise do Mapa de Dados, localize uma instância do Lakehouse a partir do Catálogo Unificado.
Procure tabelas lakehouse através da categoria de tabelas .
Pré-requisitos de análise da qualidade dos dados do Fabric Lakehouse
- Atalho, espelho ou carregue os seus dados para o Fabric Lakehouse em formato delta.
Importante
Se tiver adicionado novas tabelas, ficheiros ou novo conjunto de dados ao Fabric Lakehouse através de morroring ou atalho, terá de executar a análise do âmbito do mapa de dados para catalogar esses novos conjuntos de dados antes de adicionar esses recursos de dados ao produto de dados para avaliação da qualidade dos dados.
- Conceder direito de Contribuidor à área de trabalho do Purview MSI
- Adicione recursos de dados digitalizados do lakehouse aos produtos de dados do domínio de governação. A Criação de Perfis de Dados e a análise de DQ só podem ser feitas para os recursos de dados associados aos produtos de dados no domínio de governação.
Para análise da qualidade dos dados e da criação de perfis de dados, precisamos de criar uma ligação de origem de dados, uma vez que estamos a utilizar um conector diferente para ligar a origem de dados e analisar dados para capturar factos e dimensões de qualidade de dados. Para configurar a ligação:
No Catálogo Unificado, selecione Gestão do estado de funcionamento e, em seguida, selecione Qualidade dos dados.
Selecione um domínio de governação e, na lista pendente Gerir, selecione Connections.
Selecione Novo para abrir a página de configuração da ligação.
Adicione o nome a apresentar da ligação e uma descrição.
Adicionar Tipo de origem Recursos de Infraestrutura.
Adicione o ID do Inquilino.
Adicione Credenciais - ao Microsoft Purview MSI.
Teste a ligação para se certificar de que a ligação configurada é bem-sucedida.
Importante
- Para a análise de DQ, o MSI do Purview tem de ter contribuidor acesso à área de trabalho Recursos de Infraestrutura para ligar a área de trabalho recursos de infraestrutura. Para conceder acesso contribuidor, abra a área de trabalho Recursos de Infraestrutura, selecione três pontos (...), selecione Acesso à área de trabalho e, em seguida, Adicionar pessoas ou grupo e, em seguida, adicione o MSI do Purview como Contribuidor.
- As tabelas de recursos de infraestrutura têm de estar no formato delta ou iceberg.
Análise de Perfis e Qualidade de Dados (DQ) para dados no Fabric Lakehouse
Depois de concluída a configuração da ligação com êxito, pode criar perfis, criar e aplicar regras e executar a análise de Qualidade dos Dados (DQ) dos seus dados no Fabric Lakehouse. Siga a orientação passo a passo descrita abaixo:
- Associe uma tabela lakehouse a um produto de dados para curadoria, deteção e subscrição. Para obter mais detalhes, siga o documento - como criar e gerir produtos de dados
- Tabela lakehouse dos Recursos de Infraestrutura de Perfil. Para obter mais detalhes, siga o documento - como configurar e executar a criação de perfis de dados dos seus dados
- Configure e execute a análise da qualidade dos dados para medir a qualidade dos dados de uma tabela lakehouse dos Recursos de Infraestrutura. Para obter mais detalhes, siga o documento – como configurar e executar a análise da qualidade dos dados
Importante
- Certifique-se de que os seus dados estão no formato delta ou iceberg.
- Certifique-se de que a análise do Mapa de Dados foi executada com êxito, caso contrário, volte a executar a análise do mapa de dados.
Limitação
A Qualidade dos Dados para o ficheiro Parquet foi concebida para suportar:
- Um diretório com o Ficheiro de Peça Parquet. Por exemplo: ./Sales/{Parquet Part Files}. O Nome Completamente Qualificado tem de seguir
https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}
. Certifique-se de que não temos {n} padrões na estrutura de diretório/subdiretório. Em vez disso, tem de ser um FQN direto que conduza a {SparkPartitions}. - Um diretório com Ficheiros Parquet Particionados, particionado por colunas no conjunto de dados, como dados de vendas particionados por ano e mês. Por exemplo: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}.
Ambos os cenários essenciais que apresentam um esquema de conjunto de dados parquet consistente são suportados. Limitação: não foi concebido para ou não suporta N Hierarquias arbitrárias de Diretórios com Ficheiros Parquet. Aconselhamos o cliente a apresentar dados na estrutura construída (1) ou (2). Assim, recomendamos que o cliente siga o padrão parquet suportado ou migre os seus dados para o formato delta compatível com ACID .
Dica
Para o Mapa de Dados
- Confirme que o SPN tem permissões de área de trabalho.
- Confirme que a ligação de análise utiliza o SPN.
- Sugiro que execute a análise completa se estiver a configurar a análise do LakeHouse pela primeira vez.
- Verifique se os recursos ingeridos foram atualizados/atualizados
Catálogo Unificado
- A ligação DQ tem de utilizar credenciais MSI.
- Idealmente, crie um novo produto de dados para testar pela primeira vez a análise de DQ de dados do LakeHouse
- Adicione os recursos de dados ingeridos marcar que o recurso de dados é atualizado.
- Experimente executar o perfil, se for bem-sucedido, tente executar a regra DQ. se não for bem-sucedido, experimente atualizar o esquema de recursos (esquema de importação da gestão de esquemas de esquema> )
- Alguns utilizadores também tiveram de criar um novo Lakehouse e dados de exemplo apenas para marcar tudo funciona do zero. Em alguns casos, trabalhar com recursos que foram ingeridos anteriormente no Mapa de Dados não é consistente.
Documentos de referência
- Configurar e executar a criação de perfis de dados dos seus dados
- Configurar e executar a análise da qualidade dos dados
- FAQ e ajuda autónoma
- Configurar a ligação de Qualidade de dados
- Saiba mais sobre o Espelhamento nos Recursos de Infraestrutura?
- Atalhos do OneLake
- Qualidade dos Dados para origens de dados espelhadas dos Recursos de Infraestrutura
- Qualidade de Dados para origens de dados de atalhos do OneLake