Compartilhar via


Como obter linhagem do Azure Synapse Analytics para o Microsoft Purview

Este documento explica os passos necessários para ligar uma área de trabalho Azure Synapse a uma conta do Microsoft Purview para controlar a linhagem de dados e ingerir origens de dados. O documento também obtém os detalhes do âmbito de cobertura da atividade e das capacidades de linhagem suportadas.

Quando liga o Azure Synapse Analytics ao Microsoft Purview, sempre que for executada uma atividade de pipeline suportada, os metadados sobre os dados de origem da atividade, os dados de saída e a atividade serão ingeridos automaticamente no Mapa de Dados do Microsoft Purview.

Se uma origem de dados já tiver sido analisada e existir no mapa de dados, o processo de ingestão adicionará as informações de linhagem do Azure Synapse Analytics a essa origem existente. Se a origem ou saída não existir no mapa de dados e for suportada pela linhagem do Azure Synapse Analytics, o Microsoft Purview adicionará automaticamente os respetivos metadados do Synapse Analytics ao mapa de dados na coleção de raiz de domínio predefinida.

Esta pode ser uma excelente forma de monitorizar o seu património de dados à medida que os utilizadores movem e transformam informações com o Azure Synapse Analytics.

Capacidades de Azure Synapse suportadas

Atualmente, o Microsoft Purview captura a linhagem de runtime das seguintes atividades de pipeline de Azure Synapse:

Importante

O Microsoft Purview remove a linhagem se a origem ou o destino utilizar um sistema de armazenamento de dados não suportado.

suporte de atividade Copy

Arquivo de dados Com suporte
Azure Storage Blob Sim
Azure Cognitive Search Sim
Azure Cosmos DB para NoSQL * Sim
Azure Cosmos DB para MongoDB * Sim
Azure Data Explorer * Sim
Azure Data Lake Storage Gen1 Sim
Azure Data Lake Storage Gen2 Sim
Banco de Dados do Azure para MariaDB * Sim
Banco de Dados do Azure para MySQL * Sim
Banco de Dados do Azure para PostgreSQL * Sim
Arquivos do Azure Sim
Base de Dados SQL do Azure * Sim
Instância Gerenciada de SQL do Azure * Sim
Azure Synapse Analytics * Sim
Conjunto de SQL dedicado do Azure (anteriormente SQL DW) * Sim
Armazenamento de Tabelas do Azure Sim
Amazon S3 Sim
Hive * Sim
Oráculo * Sim
Tabela SAP (ao ligar ao SAP ECC ou SAP S/4HANA) Sim
SQL Server * Sim
Teradata * Sim

* Atualmente, o Microsoft Purview não suporta consultas ou procedimentos armazenados para linhagem ou análise. A linhagem está limitada apenas a origens de tabelas e visualizações.

Se utilizar o Integration Runtime Autoalojado, tenha em atenção a versão mínima com suporte de linhagem para:

  • Qualquer caso de utilização: versão 5.9.7885.3 ou posterior
  • Copiar dados do Oracle: versão 5.10 ou posterior
  • Copiar dados para o Azure Synapse Analytics através do comando COPY ou do PolyBase: versão 5.10 ou posterior

Limitações na linhagem da atividade de cópia

Atualmente, se utilizar as seguintes funcionalidades de atividade de cópia, a linhagem ainda não é suportada:

  • Copie os dados para o Azure Data Lake Storage Gen1 com o formato Binário.
  • Definição de compressão para ficheiros Binários, texto delimitado, Excel, JSON e XML.
  • Opções de partição de origem para Base de Dados SQL do Azure, Instância Gerenciada de SQL do Azure, Análise de Azure Synapse, SQL Server e Tabela SAP.
  • Copie os dados para o sink baseado em ficheiros com a definição de linhas máximas por ficheiro.
  • Atualmente, a linhagem ao nível da coluna não é suportada pela atividade de cópia quando a origem/sink é um conjunto de recursos.

Além da linhagem, o esquema do recurso de dados (mostrado no separador Ativo –> Esquema) é comunicado para os seguintes conectores:

  • Ficheiros CSV e Parquet no Blob do Azure, Arquivos do Azure, ADLS Gen1, ADLS Gen2 e Amazon S3
  • Base de Dados do Azure Data Explorer, SQL do Azure, Instância Gerenciada de SQL do Azure, Azure Synapse Analytics, SQL Server, Teradata

suporte de Fluxo de Dados

Arquivo de dados Com suporte
Azure Storage Blob Sim
Azure Cosmos DB para NoSQL * Sim
Azure Data Lake Storage Gen1 Sim
Azure Data Lake Storage Gen2 Sim
Banco de Dados do Azure para MySQL * Sim
Banco de Dados do Azure para PostgreSQL * Sim
Base de Dados SQL do Azure * Sim
Instância Gerenciada de SQL do Azure * Sim
Azure Synapse Analytics * Sim
Conjunto de SQL dedicado do Azure (anteriormente SQL DW) * Sim

* Atualmente, o Microsoft Purview não suporta consultas ou procedimentos armazenados para linhagem ou análise. A linhagem está limitada apenas a origens de tabelas e visualizações.

Limitações da linhagem do fluxo de dados

  • A linhagem do fluxo de dados pode gerar um conjunto de recursos ao nível da pasta sem visibilidade nos ficheiros envolvidos.
  • A linhagem ao nível da coluna não é atualmente suportada quando a origem/sink está definido como recurso.
  • Para a linhagem da atividade do fluxo de dados, o Microsoft Purview só suporta mostrar a origem e o sink envolvidos. A linhagem detalhada para a transformação do fluxo de dados ainda não é suportada.
  • A linhagem não é suportada quando os flowlets fazem parte do fluxo de dados.
  • Atualmente, o Purview não suporta relatórios de linhagem para tabelas do Synapse (BD LakeHouse/BD da Área de Trabalho)

Aceder a uma conta do Microsoft Purview protegida

Se a sua conta do Microsoft Purview estiver protegida pela firewall, saiba como permitir que Azure Synapse aceda a uma conta segura do Microsoft Purview através de pontos finais privados do Microsoft Purview.

Trazer Azure Synapse linhagem para o Microsoft Purview

Passo 1: Ligar Azure Synapse área de trabalho à sua conta do Microsoft Purview

Pode ligar uma área de trabalho Azure Synapse ao Microsoft Purview e a ligação permite que Azure Synapse enviem informações de linhagem para o Microsoft Purview. Siga os passos em Ligar a área de trabalho do Synapse ao Microsoft Purview. Várias Azure Synapse áreas de trabalho podem ligar-se a uma única conta do Microsoft Purview para controlo de linhagem holística.

Passo 2: Executar o pipeline na área de trabalho do Azure Synapse

Pode criar pipelines com atividade Copy na área de trabalho Azure Synapse. Não precisa de qualquer outra configuração para a captura de dados de linhagem. Os dados de linhagem serão capturados automaticamente durante a execução das atividades.

Passo 3: Monitorizar os relatórios de linhagem status

Depois de executar o pipeline Azure Synapse, na vista de monitorização do pipeline do Synapse, pode marcar o status de relatórios de linhagem ao selecionar o seguinte botão linhagem status. As mesmas informações também estão disponíveis na secção JSON de saída da atividade .>reportLineageToPurvew

Monitorize a status de relatórios de linhagem na vista de monitorização do pipeline.

Passo 4: Ver informações de linhagem na sua conta do Microsoft Purview

Na sua conta do Microsoft Purview, pode procurar recursos e escolher o tipo "Azure Synapse Analytics". Também pode procurar no Catálogo de Dados com palavras-chave.

Procure os recursos Azure Synapse no Microsoft Purview.

Selecione a conta do Synapse –> pipeline –> atividade, pode ver as informações de linhagem.

Navegue na linhagem do pipeline Azure Synapse no Microsoft Purview.

No portal de governação do Microsoft Purview, pode monitorizar as ligações do Azure Synapse Analytics.

Próximas etapas

Guia do utilizador da linhagem de catálogo

Ligar ao Azure Data Share para linhagem