Partilhar via


Qualidade dos dados do microsoft synapse sem servidor e do armazém de dados

Azure Synapse Analytics é um serviço de análise empresarial que acelera o tempo de informação entre armazéns de dados e sistemas de macrodados. Reúne as melhores tecnologias SQL utilizadas no armazenamento de dados empresariais, tecnologias do Apache Spark para macrodados e Data Explorer do Azure para análise de séries de registos e tempo.

Azure Synapse é um serviço de análise ilimitado que reúne armazenamento de dados empresariais e análise de Macrodados. Dá-lhe a liberdade de consultar dados nos seus termos, utilizando recursos sem servidor ou dedicados, em escala, para obter mais detalhes sobre Azure Synapse veja a documentação recursos de infraestrutura.

Exemplo de área de trabalho do synapse com uma instância da Tabela EMPLOYEE (DWH) do Synaps Data Warehouse e Dedicado e uma Base de Dados Sem Servidor (SQL_ON_DEMAND) com a tabela SynapseSalesDelta.

Captura de ecrã da área de trabalho do Synapse Analytics.

Depois de analisados, os recursos estão disponíveis no Microsoft Purview. Segue-se um exemplo de uma Tabela de Funcionários na instância dedicada do Synapse Analytics.

Azure Synapse analytics Dedicado (Data Warehouse)

Configurar a análise do Mapa de Dados

Para analisar Azure Synapse Analytics Dedicado (Data Warehouse) siga a documentação: e para conceder as permissões de MI necessárias na instância de DWH dedicado, siga a documentação.

Captura de ecrã a mostrar a configuração da análise do mapa de dados.

Depois de analisados, os recursos estão disponíveis no catálogo do Microsoft Purview. Segue-se um exemplo de uma Tabela de Funcionários na instância dedicada do Synapse Analytics.

Captura de ecrã a mostrar o resultado da análise do mapa de dados.

Configurar a ligação ao seu armazém de dados dedicado do synapse

Neste momento, temos o recurso analisado pronto para catalogação e governação. Associe o recurso analisado ao Produto de Dados numa Seleção de Domínio de Governação. No Separador Qualidade dos Dados, adicione um novo SQL do Azure Ligação à Base de Dados: Introduza manualmente o Nome da Base de Dados.

  1. Selecione o separador Gestão de Domínio > de Governação de qualidade > de dados para criar ligação.

    Captura de ecrã a mostrar como configurar a ligação.

  2. Configure a ligação na página de ligação.

    • Adicione o nome e a descrição da ligação.
    • Selecione o tipo de origem Azure Synapse Analytics.
    • Selecione Subscrição do Azure.
    • Selecione Nome da área de trabalho.
    • Selecione Ponto final do SQL dedicado.
    • Selecione ponto final do SQL sem servidor.
    • Selecione Tipo de ponto final.
    • Selecione Base de Dados.
    • Adicione MSI como Credencial.

    Captura de ecrã a mostrar como configurar a ligação à origem de dados.

  3. Teste a ligação. Depois de configurar a ligação da origem de dados e testá-la com êxito, pode continuar a configurar e executar análises de Criação de Perfis de Dados e Qualidade de Dados.

  4. Se a origem de dados do Synapse estiver localizada atrás de um ponto final privado, terá de ativar a vNet gerida. Siga o documento para configurar a vNet gerida.

Importante

Os responsáveis pela qualidade dos dados precisam de acesso só de leitura ao armazém de dados dedicado do Synapse para configurar a ligação de qualidade dos dados. Para a configuração da vNet gerida, não poderá testar a ligação.

Análise da Criação de Perfis e qualidade dos dados no armazém de dados dedicado do Synapse

Depois de concluída a configuração da ligação com êxito, pode criar perfis, criar e aplicar regras e executar a análise de DQ dos seus dados no armazém do Synapse. Siga a orientação passo a passo descrita nos documentos abaixo:

Importante

  • O desempenho das consultas e até as execuções bem-sucedidas dependem da configuração do DW que os clientes têm para as instâncias de base de dados dedicadas.
  • As respetivas tarefas de avaliação de DQ ou qualquer outra tarefa de DQ induz uma ligação no DW Dedicado e pode falhar se a instância estiver aprovisionada ou falhar nos limites de simultaneidade, os clientes têm de estar cientes da configuração do DW. A sua simultaneidade tem limites muito rígidos para qualquer instância no tempo.
  • Os limites de simultaneidade podem levar à cessação da tarefa. Os Limites de DW (tais 1000 DW) fornecem a capacidade para executar as consultas.
  • O suporte da vNet está em pré-visualização com suporte de nível GA.

Azure Synapse Analytics Sem Servidor

Configurar a análise do mapa de dados

Para analisar Azure Synapse Analytics Sem Servidor, siga a documentação: e para conceder as permissões de MI necessárias na instância DWH dedicada, siga a documentação. Depois de analisados, os recursos sem servidor estão disponíveis no catálogo do Microsoft Purview.

Captura de ecrã a mostrar a configuração da análise do mapa de dados para sem servidor.

Configurar a ligação ao synapse Sem Servidor

Neste momento, temos o recurso analisado pronto para catalogação e governação. Associe o recurso analisado ao Produto de Dados numa Seleção de Domínio de Governação. Em Qualidade dos Dados, adicione um novo SQL do Azure Ligação à Base de Dados: Introduza manualmente o Nome da Base de Dados.

  1. Selecione o separadorGestão de Domínio>de Governação de qualidade> de dados para criar ligação.

    Captura de ecrã a mostrar como configurar a ligação.

  2. Configure a ligação na página de ligação.

    • Adicione o nome e a descrição da ligação.
    • Selecione o tipo de origem Azure Synapse Analytics.
    • Selecione Subscrição do Azure.
    • Selecione Nome da área de trabalho.
    • Selecione Ponto final do SQL dedicado.
    • Selecione ponto final do SQL sem servidor.
    • Selecione Tipo de ponto final.
    • Selecione Base de Dados.
    • Adicione MSI como Credencial.

    Captura de ecrã a mostrar como configurar a ligação de origem de dados para o synapse sem servidor.

  3. Teste a ligação. Depois de configurar a ligação da origem de dados e testá-la com êxito, pode continuar a configurar e executar análises de Criação de Perfis de Dados e Qualidade de Dados.

  4. Se a origem de dados do Synapse estiver localizada atrás de um ponto final privado, terá de ativar a vNet gerida. Siga o documento para configurar a vNet gerida.

Importante

  • Os responsáveis pela qualidade dos dados precisam de acesso só de leitura ao armazém de dados dedicado do Synapse para configurar a ligação de qualidade dos dados.
  • Na configuração sem servidor do Synapse, a tabela externa aponta para dados formatados delta armazenados no ADLS Gen2.
  • O suporte da vNet está em Pré-visualização fechada. Contacte a equipa de vendas do Purview para permitir a lista de permissões do seu inquilino para a pré-visualização fechada.
  • O Conector do Synapse só deteta e suporta sql.azuresynapse.net. Se o Nome Completamente Qualificado (FQN) gerado pela análise de Dados mmap contiver database.windows.net, a ligação do Synapse para a análise de DQ falhará.

Análise de Perfis e Qualidade de Dados (DQ) para dados no synapse sem servidor

Depois de concluída a configuração da ligação com êxito, pode criar perfis, criar e aplicar regras e executar a análise de Qualidade dos Dados (DQ) dos seus dados no armazém do Synapse. Siga a orientação passo a passo descrita nos documentos abaixo:

Importante

  • As avaliações de DQ, a criação de perfis executadas no Spark em segundo plano, os clientes terão várias ligações em que cada nó do Spark terá um SPID de ligação, pelo que o DWH pode encontrar limites de consulta atuais se forem utilizados/agendados para além dos Limites de DW, o que resulta em falhas. No entanto, para Azure Synapse Tabela SQL Sem Servidor – não se aplicam limites de simultaneidade; depende totalmente das otimizações de parquet Delta sem servidor que os clientes têm na instância do ADLS Gen2. O motor pode ser considerado de perto ao ressoar o Databricks Serverless DW, ambos funcionam em origens externas do Lakehouse, tais como tabelas de formato DELTA.

Documentos de referência