Como obter linhagem do Azure Synapse Analytics para o Microsoft Purview
Este documento explica os passos necessários para ligar uma área de trabalho Azure Synapse a uma conta do Microsoft Purview para controlar a linhagem de dados e ingerir origens de dados. O documento também obtém os detalhes do âmbito de cobertura da atividade e das capacidades de linhagem suportadas.
Quando liga o Azure Synapse Analytics ao Microsoft Purview, sempre que for executada uma atividade de pipeline suportada, os metadados sobre os dados de origem da atividade, os dados de saída e a atividade serão ingeridos automaticamente no Mapa de Dados do Microsoft Purview.
Se uma origem de dados já tiver sido analisada e existir no mapa de dados, o processo de ingestão adicionará as informações de linhagem do Azure Synapse Analytics a essa origem existente. Se a origem ou saída não existir no mapa de dados e for suportada pela linhagem do Azure Synapse Analytics, o Microsoft Purview adicionará automaticamente os respetivos metadados do Synapse Analytics ao mapa de dados na coleção de raiz de domínio predefinida.
Esta pode ser uma excelente forma de monitorizar o seu património de dados à medida que os utilizadores movem e transformam informações com o Azure Synapse Analytics.
Capacidades de Azure Synapse suportadas
Atualmente, o Microsoft Purview captura a linhagem de runtime das seguintes atividades de pipeline de Azure Synapse:
Importante
O Microsoft Purview remove a linhagem se a origem ou o destino utilizar um sistema de armazenamento de dados não suportado.
suporte de atividade Copy
Arquivo de dados | Com suporte |
---|---|
Azure Storage Blob | Sim |
Azure Cognitive Search | Sim |
Azure Cosmos DB para NoSQL * | Sim |
Azure Cosmos DB para MongoDB * | Sim |
Azure Data Explorer * | Sim |
Azure Data Lake Storage Gen1 | Sim |
Azure Data Lake Storage Gen2 | Sim |
Banco de Dados do Azure para MariaDB * | Sim |
Banco de Dados do Azure para MySQL * | Sim |
Banco de Dados do Azure para PostgreSQL * | Sim |
Arquivos do Azure | Sim |
Base de Dados SQL do Azure * | Sim |
Instância Gerenciada de SQL do Azure * | Sim |
Azure Synapse Analytics * | Sim |
Conjunto de SQL dedicado do Azure (anteriormente SQL DW) * | Sim |
Armazenamento de Tabelas do Azure | Sim |
Amazon S3 | Sim |
Hive * | Sim |
Oráculo * | Sim |
Tabela SAP (ao ligar ao SAP ECC ou SAP S/4HANA) | Sim |
SQL Server * | Sim |
Teradata * | Sim |
* Atualmente, o Microsoft Purview não suporta consultas ou procedimentos armazenados para linhagem ou análise. A linhagem está limitada apenas a origens de tabelas e visualizações.
Se utilizar o Integration Runtime Autoalojado, tenha em atenção a versão mínima com suporte de linhagem para:
- Qualquer caso de utilização: versão 5.9.7885.3 ou posterior
- Copiar dados do Oracle: versão 5.10 ou posterior
- Copiar dados para o Azure Synapse Analytics através do comando COPY ou do PolyBase: versão 5.10 ou posterior
Limitações na linhagem da atividade de cópia
Atualmente, se utilizar as seguintes funcionalidades de atividade de cópia, a linhagem ainda não é suportada:
- Copie os dados para o Azure Data Lake Storage Gen1 com o formato Binário.
- Definição de compressão para ficheiros Binários, texto delimitado, Excel, JSON e XML.
- Opções de partição de origem para Base de Dados SQL do Azure, Instância Gerenciada de SQL do Azure, Análise de Azure Synapse, SQL Server e Tabela SAP.
- Copie os dados para o sink baseado em ficheiros com a definição de linhas máximas por ficheiro.
- Atualmente, a linhagem ao nível da coluna não é suportada pela atividade de cópia quando a origem/sink é um conjunto de recursos.
Além da linhagem, o esquema do recurso de dados (mostrado no separador Ativo –> Esquema) é comunicado para os seguintes conectores:
- Ficheiros CSV e Parquet no Blob do Azure, Arquivos do Azure, ADLS Gen1, ADLS Gen2 e Amazon S3
- Base de Dados do Azure Data Explorer, SQL do Azure, Instância Gerenciada de SQL do Azure, Azure Synapse Analytics, SQL Server, Teradata
suporte de Fluxo de Dados
Arquivo de dados | Com suporte |
---|---|
Azure Storage Blob | Sim |
Azure Cosmos DB para NoSQL * | Sim |
Azure Data Lake Storage Gen1 | Sim |
Azure Data Lake Storage Gen2 | Sim |
Banco de Dados do Azure para MySQL * | Sim |
Banco de Dados do Azure para PostgreSQL * | Sim |
Base de Dados SQL do Azure * | Sim |
Instância Gerenciada de SQL do Azure * | Sim |
Azure Synapse Analytics * | Sim |
Conjunto de SQL dedicado do Azure (anteriormente SQL DW) * | Sim |
* Atualmente, o Microsoft Purview não suporta consultas ou procedimentos armazenados para linhagem ou análise. A linhagem está limitada apenas a origens de tabelas e visualizações.
Limitações da linhagem do fluxo de dados
- A linhagem do fluxo de dados pode gerar um conjunto de recursos ao nível da pasta sem visibilidade nos ficheiros envolvidos.
- A linhagem ao nível da coluna não é atualmente suportada quando a origem/sink está definido como recurso.
- Para a linhagem da atividade do fluxo de dados, o Microsoft Purview só suporta mostrar a origem e o sink envolvidos. A linhagem detalhada para a transformação do fluxo de dados ainda não é suportada.
- A linhagem não é suportada quando os flowlets fazem parte do fluxo de dados.
- Atualmente, o Purview não suporta relatórios de linhagem para tabelas do Synapse (BD LakeHouse/BD da Área de Trabalho)
Aceder a uma conta do Microsoft Purview protegida
Se a sua conta do Microsoft Purview estiver protegida pela firewall, saiba como permitir que Azure Synapse aceda a uma conta segura do Microsoft Purview através de pontos finais privados do Microsoft Purview.
Trazer Azure Synapse linhagem para o Microsoft Purview
Passo 1: Ligar Azure Synapse área de trabalho à sua conta do Microsoft Purview
Pode ligar uma área de trabalho Azure Synapse ao Microsoft Purview e a ligação permite que Azure Synapse enviem informações de linhagem para o Microsoft Purview. Siga os passos em Ligar a área de trabalho do Synapse ao Microsoft Purview. Várias Azure Synapse áreas de trabalho podem ligar-se a uma única conta do Microsoft Purview para controlo de linhagem holística.
Passo 2: Executar o pipeline na área de trabalho do Azure Synapse
Pode criar pipelines com atividade Copy na área de trabalho Azure Synapse. Não precisa de qualquer outra configuração para a captura de dados de linhagem. Os dados de linhagem serão capturados automaticamente durante a execução das atividades.
Passo 3: Monitorizar os relatórios de linhagem status
Depois de executar o pipeline Azure Synapse, na vista de monitorização do pipeline do Synapse, pode marcar o status de relatórios de linhagem ao selecionar o seguinte botão linhagem status. As mesmas informações também estão disponíveis na secção JSON de saída da atividade .>reportLineageToPurvew
Passo 4: Ver informações de linhagem na sua conta do Microsoft Purview
Na sua conta do Microsoft Purview, pode procurar recursos e escolher o tipo "Azure Synapse Analytics". Também pode procurar no Catálogo de Dados com palavras-chave.
Selecione a conta do Synapse –> pipeline –> atividade, pode ver as informações de linhagem.
Monitorizar as ligações do Azure Synapse Analytics
No portal de governação do Microsoft Purview, pode monitorizar as ligações do Azure Synapse Analytics.