Como ligar Azure Data Factory e o Microsoft Purview
Este documento explica os passos necessários para ligar uma conta Azure Data Factory a uma conta do Microsoft Purview para controlar a linhagem de dados e ingerir origens de dados. O documento também obtém os detalhes do âmbito de cobertura da atividade e dos padrões de linhagem suportados.
Quando liga uma Azure Data Factory ao Microsoft Purview, sempre que for executada uma atividade de Azure Data Factory suportada, os metadados sobre os dados de origem da atividade, os dados de saída e a atividade serão ingeridos automaticamente no Mapa de Dados do Microsoft Purview.
Se uma origem de dados já tiver sido analisada e existir no mapa de dados, o processo de ingestão adicionará as informações de linhagem de Azure Data Factory a essa origem existente. Se a origem ou saída não existir no mapa de dados e for suportada por Azure Data Factory linhagem, o Microsoft Purview adicionará automaticamente os respetivos metadados de Azure Data Factory ao mapa de dados na coleção de raiz.
Esta pode ser uma excelente forma de monitorizar o seu património de dados à medida que os utilizadores movem e transformam informações com Azure Data Factory.
Ver ligações existentes do Data Factory
Várias Fábricas de Dados do Azure podem ligar-se a um único Microsoft Purview para emitir informações de linhagem. O limite atual permite-lhe ligar até 10 contas do Data Factory de cada vez a partir do centro de gestão do Microsoft Purview. Para mostrar a lista de contas do Data Factory ligadas à sua conta do Microsoft Purview, faça o seguinte:
Selecione Gestão no painel de navegação esquerdo.
Em Ligações de linhagem, selecione Data Factory.
É apresentada a lista de ligações do Data Factory.
Repare nos vários valores para o Estado da ligação:
- Ligado: o Data Factory está ligado à conta do Microsoft Purview.
- Desligado: o Data Factory tem acesso ao catálogo, mas está ligado a outro catálogo. Como resultado, a linhagem de dados não será comunicada automaticamente ao catálogo.
- Desconhecido: o utilizador atual não tem acesso ao Data Factory, pelo que a ligação status é desconhecida.
Observação
Para ver as ligações do Data Factory, tem de lhe ser atribuída a seguinte função. A herança de funções do grupo de gestão não é suportada. Função de administradores de coleções na coleção de raiz.
Criar nova ligação do Data Factory
Observação
Para adicionar ou remover as ligações do Data Factory, tem de lhe ser atribuída a seguinte função. A herança de funções do grupo de gestão não é suportada. Função de administradores de coleções na coleção de raiz.
Além disso, requer que os utilizadores sejam o "Proprietário" ou o "Contribuidor" da fábrica de dados.
A fábrica de dados tem de ter a identidade gerida atribuída pelo sistema ativada.
Siga os passos abaixo para ligar uma fábrica de dados existente à sua conta do Microsoft Purview. Também pode ligar o Data Factory à conta do Microsoft Purview a partir do ADF.
Selecione Gestão no painel de navegação esquerdo.
Em Ligações de linhagem, selecione Data Factory.
Na página Ligação do Data Factory , selecione Novo.
Selecione a sua conta do Data Factory na lista e selecione OK. Também pode filtrar por nome de subscrição para limitar a sua lista.
Algumas instâncias do Data Factory poderão estar desativadas se a fábrica de dados já estiver ligada à conta atual do Microsoft Purview ou se a fábrica de dados não tiver uma identidade gerida.
Será apresentada uma mensagem de aviso se alguma das Fábricas de Dados selecionadas já estiver ligada a outra conta do Microsoft Purview. Quando seleciona OK, a ligação do Data Factory com a outra conta do Microsoft Purview será desligada. Não são necessárias outras confirmações.
Observação
Suportamos a adição de até 10 contas Azure Data Factory ao mesmo tempo. Se quiser adicionar mais de 10 contas de fábrica de dados, faça-o em vários lotes.
Como funciona a autenticação
A identidade gerida da fábrica de dados é utilizada para autenticar operações push de linhagem da fábrica de dados para o Microsoft Purview. Quando liga a fábrica de dados ao Microsoft Purview na IU, esta adiciona automaticamente a atribuição de função.
Conceda a função de Curador de Dados da identidade gerida da fábrica de dados na coleção de raiz do Microsoft Purview. Saiba mais sobre o Controlo de acesso no Microsoft Purview e Adicionar funções e restringir o acesso através de coleções.
Remover ligações do Data Factory
Para remover uma ligação de fábrica de dados, faça o seguinte:
Na página Ligação do Data Factory , selecione o botão Remover junto a uma ou mais ligações de fábrica de dados.
Selecione Confirmar no pop-up para eliminar as ligações de fábrica de dados selecionadas.
Monitorizar as ligações do Data Factory
No portal de governação do Microsoft Purview, pode monitorizar as ligações do Data Factory.
Atividades de Azure Data Factory suportadas
O Microsoft Purview captura a linhagem de runtime das seguintes atividades de Azure Data Factory:
Importante
O Microsoft Purview remove a linhagem se a origem ou o destino utilizar um sistema de armazenamento de dados não suportado.
A integração entre o Data Factory e o Microsoft Purview suporta apenas um subconjunto dos sistemas de dados suportados pelo Data Factory, conforme descrito nas secções seguintes.
suporte de atividade Copy
Arquivo de dados | Com suporte |
---|---|
Azure Storage Blob | Sim |
Azure Cognitive Search | Sim |
Azure Cosmos DB para NoSQL * | Sim |
Azure Cosmos DB para MongoDB * | Sim |
Azure Data Explorer * | Sim |
Azure Data Lake Storage Gen1 | Sim |
Azure Data Lake Storage Gen2 | Sim |
Banco de Dados do Azure para MariaDB * | Sim |
Banco de Dados do Azure para MySQL * | Sim |
Banco de Dados do Azure para PostgreSQL * | Sim |
Arquivos do Azure | Sim |
Base de Dados SQL do Azure * | Sim |
Instância Gerenciada de SQL do Azure * | Sim |
Azure Synapse Analytics * | Sim |
Conjunto de SQL dedicado do Azure (anteriormente SQL DW) * | Sim |
Armazenamento de Tabelas do Azure | Sim |
Amazon S3 | Sim |
Hive * | Sim |
Oráculo * | Sim |
Tabela SAP (ao ligar ao SAP ECC ou SAP S/4HANA) | Sim |
SQL Server * | Sim |
Teradata * | Sim |
* Atualmente, o Microsoft Purview não suporta consultas ou procedimentos armazenados para linhagem ou análise. A linhagem está limitada apenas a origens de tabelas e visualizações.
Se utilizar o Integration Runtime Autoalojado, tenha em atenção a versão mínima com suporte de linhagem para:
- Qualquer caso de utilização: versão 5.9.7885.3 ou posterior
- Copiar dados do Oracle: versão 5.10 ou posterior
- Copiar dados para o Azure Synapse Analytics através do comando COPY ou do PolyBase: versão 5.10 ou posterior
Limitações na linhagem da atividade de cópia
Atualmente, se utilizar as seguintes funcionalidades de atividade de cópia, a linhagem ainda não é suportada:
- Copie os dados para o Azure Data Lake Storage Gen1 com o formato Binário.
- Definição de compressão para ficheiros Binários, texto delimitado, Excel, JSON e XML.
- Opções de partição de origem para Base de Dados SQL do Azure, Instância Gerenciada de SQL do Azure, Análise de Azure Synapse, SQL Server e Tabela SAP.
- Copie os dados para o sink baseado em ficheiros com a definição de linhas máximas por ficheiro.
- Atualmente, a linhagem ao nível da coluna não é suportada pela atividade de cópia quando a origem/sink é um conjunto de recursos.
Além da linhagem, o esquema do recurso de dados (mostrado no separador Ativo –> Esquema) é comunicado para os seguintes conectores:
- Ficheiros CSV e Parquet no Blob do Azure, Arquivos do Azure, ADLS Gen1, ADLS Gen2 e Amazon S3
- Base de Dados do Azure Data Explorer, SQL do Azure, Instância Gerenciada de SQL do Azure, Azure Synapse Analytics, SQL Server, Teradata
suporte de Fluxo de Dados
Arquivo de dados | Com suporte |
---|---|
Azure Storage Blob | Sim |
Azure Cosmos DB para NoSQL * | Sim |
Azure Data Lake Storage Gen1 | Sim |
Azure Data Lake Storage Gen2 | Sim |
Banco de Dados do Azure para MySQL * | Sim |
Banco de Dados do Azure para PostgreSQL * | Sim |
Base de Dados SQL do Azure * | Sim |
Instância Gerenciada de SQL do Azure * | Sim |
Azure Synapse Analytics * | Sim |
Conjunto de SQL dedicado do Azure (anteriormente SQL DW) * | Sim |
* Atualmente, o Microsoft Purview não suporta consultas ou procedimentos armazenados para linhagem ou análise. A linhagem está limitada apenas a origens de tabelas e visualizações.
Limitações da linhagem do fluxo de dados
- A linhagem do fluxo de dados pode gerar um conjunto de recursos ao nível da pasta sem visibilidade nos ficheiros envolvidos.
- A linhagem ao nível da coluna não é atualmente suportada quando a origem/sink está definido como recurso.
- Para a linhagem da atividade do fluxo de dados, o Microsoft Purview só suporta mostrar a origem e o sink envolvidos. A linhagem detalhada para a transformação do fluxo de dados ainda não é suportada.
- A linhagem não é suportada quando os flowlets fazem parte do fluxo de dados.
- Atualmente, o Purview não suporta relatórios de linhagem para tabelas do Synapse (BD LakeHouse/BD da Área de Trabalho)
Executar o suporte do Pacote SSIS
Veja os arquivos de dados suportados.
Aceder a uma conta do Microsoft Purview protegida
Se a sua conta do Microsoft Purview estiver protegida pela firewall, saiba como permitir que o Data Factory aceda a uma conta segura do Microsoft Purview através de pontos finais privados do Microsoft Purview.
Trazer linhagem do Data Factory para o Microsoft Purview
Para obter instruções ponto a ponto, siga o Tutorial: Enviar dados de linhagem do Data Factory para o Microsoft Purview.
Padrões de linhagem suportados
Existem vários padrões de linhagem suportados pelo Microsoft Purview. Os dados de linhagem gerados baseiam-se no tipo de origem e sink utilizados nas atividades do Data Factory. Embora o Data Factory suporte mais de 80 origens e sinks, o Microsoft Purview suporta apenas um subconjunto, conforme listado em Atividades de Azure Data Factory suportadas.
Para configurar o Data Factory para enviar informações de linhagem, veja Introdução à linhagem.
Outras formas de encontrar informações na vista de linhagem incluem o seguinte:
- No separador Linhagem , paire o cursor sobre formas para pré-visualizar informações adicionais sobre o elemento na descrição.
- Selecione o nó ou o limite para ver o tipo de recurso ao qual pertence ou para mudar de recursos.
- As colunas de um conjunto de dados são apresentadas no lado esquerdo do separador Linhagem . Para obter mais informações sobre a linhagem ao nível da coluna, veja Linhagem de colunas de conjuntos de dados.
Linhagem de dados para operações 1:1
O padrão mais comum para capturar a linhagem de dados é mover dados de um único conjunto de dados de entrada para um único conjunto de dados de saída, com um processo intermédio.
Um exemplo deste padrão seria o seguinte:
- 1 origem/entrada: Cliente (Tabela SQL)
- 1 sink/saída: Customer1.csv (Blob do Azure)
- 1 processo: CopyCustomerInfo1#Customer1.csv (data factory atividade Copy)
Movimento de dados com linhagem 1:1 e suporte de carateres universais
Outro cenário comum para capturar linhagem é a utilização de um caráter universal para copiar ficheiros de um único conjunto de dados de entrada para um único conjunto de dados de saída. O caráter universal permite que a atividade de cópia corresponda a vários ficheiros para copiar com uma parte comum do nome do ficheiro. O Microsoft Purview captura a linhagem ao nível do ficheiro para cada ficheiro individual copiado pela atividade de cópia correspondente.
Um exemplo deste padrão seria o seguinte:
- Origem/entrada: CustomerCall*.csv (caminho do ADLS Gen2)
- Sink/output: CustomerCall*.csv (ficheiro de blobs do Azure)
- 1 processo: CopyGen2ToBlob#CustomerCall.csv (Data Factory atividade Copy)
Movimento de dados com linhagem n:1
Pode utilizar Fluxo de Dados atividades para realizar operações de dados, como intercalar, associar, etc. Pode ser utilizado mais do que um conjunto de dados de origem para produzir um conjunto de dados de destino. Neste exemplo, o Microsoft Purview captura a linhagem ao nível do ficheiro para ficheiros de entrada individuais para uma tabela SQL que faz parte de uma atividade Fluxo de Dados.
Um exemplo deste padrão seria o seguinte:
- 2 origens/entradas: Customer.csv, Sales.parquet (Caminho do ADLS Gen2)
- 1 sink/saída: Dados da empresa (SQL do Azure tabela)
- 1 processo: DataFlowBlobsToSQL (atividade de Fluxo de Dados do Data Factory)
Linhagem para conjuntos de recursos
Um conjunto de recursos é um objeto lógico no catálogo que representa muitos ficheiros de partição no armazenamento subjacente. Para obter mais informações, veja Compreender os Conjuntos de recursos. Quando o Microsoft Purview captura a linhagem do Azure Data Factory, aplica as regras para normalizar os ficheiros de partição individuais e criar um único objeto lógico.
No exemplo seguinte, é produzido um conjunto de recursos do Azure Data Lake Gen2 a partir de um Blob do Azure:
- 1 origem/entrada: Employee_management.csv (Blob do Azure)
- 1 sink/saída: Employee_management.csv (Azure Data Lake Gen2)
- 1 processo: CopyBlobToAdlsGen2_RS (data factory atividade Copy)
Próximas etapas
Tutorial: Enviar dados de linhagem do Data Factory para o Microsoft Purview