Come ottenere la derivazione da Airflow in Microsoft Purview (anteprima)
Airflow è una piattaforma di automazione e pianificazione del flusso di lavoro open source che può essere usata per creare e gestire pipeline di dati. Microsoft Purview supporta la raccolta della derivazione di Airflow integrando con OpenLineage, un framework aperto per la raccolta e l'analisi della derivazione dei dati. Informazioni sul funzionamento di Airflow con OpenLineage sono disponibili qui.
L'abilitazione di OpenLineage in Airflow tiene automaticamente traccia dei metadati e delle derivazioni dei processi e dei set di dati durante l'esecuzione dei dag. Le informazioni vengono inviate a un Hub eventi di Azure configurato. Microsoft Purview sottoscrive gli eventi, li analizza e inserisce nella mappa dati.
Importante
Al momento questa funzionalità è disponibile in anteprima. Le Condizioni aggiuntive per l'uso per le anteprime di Microsoft Azure includono termini legali aggiuntivi che si applicano alle funzionalità di Azure in versione beta, in anteprima o in altro modo non ancora rilasciate nella disponibilità generale.
Funzionalità supportate
Le versioni di Airflow supportate sono 1.10+ e 2.0-2.7.
Microsoft Purview supporta la raccolta di metadati e derivazione quando in Airflow vengono usati i tipi di origini dati seguenti:
- Amazon RDS per PostgreSQL
- Database di Azure per PostgreSQL
- Google BigQuery
- PostgreSQL
- Fiocco di neve
Vengono acquisiti i metadati di Airflow seguenti:
- Area di lavoro Airflow
- DAG di flusso d'aria
- Attività Flusso d'aria
La derivazione viene raccolta in Microsoft Purview dopo l'esecuzione corretta del dag in modo basato su eventi.
Limitazioni note
- La derivazione a livello di colonna non è attualmente supportata. Viene acquisito lo schema degli asset di dati.
- Se nelle attività viene fatto riferimento alle viste di database, queste vengono attualmente acquisite come asset di tabella.
- Tutti i metadati vengono inseriti nella raccolta radice di Microsoft Purview. Gli asset già esistenti nella mappa dati vengono conservati nella raccolta configurata.
Come portare la derivazione di Airflow in Microsoft Purview
Come prerequisito, è necessaria un'istanza di Airflow in esecuzione.
Per ottenere la derivazione da Airflow in Microsoft Purview, è necessario:
- Configurare un Hub eventi di Azure
- Configurare Hub eventi per pubblicare messaggi in Microsoft Purview
- Configurare Airflow con OpenLineage
- Eseguire processi Airflow e visualizzare gli asset/derivazione
Configurare Hub eventi di Azure
Configurare un Hub eventi di Azure come destinatario dei metadati e della derivazione rilevati da OpenLineage in Airflow.
Creare un hub eventi. Assegnare all'hub eventi il nome "microsoft_internal_openlineage".
Passare all'hub eventi "microsoft_internal_openlineage" ->Controllo di accesso (IAM) ->Aggiungere l'assegnazione di ruolo, assegnare il ruolo "Hub eventi di Azure Ricevitore dati" all'identità gestita dell'account Microsoft Purview. Per i passaggi dettagliati, vedere Assegnare ruoli di Azure usando il portale di Azure.
Configurare Hub eventi per pubblicare messaggi in Microsoft Purview
Microsoft Purview supporta l'utilizzo e il push di eventi da/verso hub eventi personalizzati. Seguire questo documento per configurare Hub eventi per Microsoft Purview: Configurare Hub eventi con Microsoft Purview per inviare e ricevere i messaggi degli argomenti di Atlas Kafka.
Riepilogo:
Passare alla scheda Account Microsoft Purview -> Risorse gestite e disabilitare lo spazio dei nomi di Hub eventi gestito.
Passare alla scheda configurazione Kafka ->+ Aggiungi configurazione ->Configurazione hook, immettere un nome e selezionare lo spazio dei nomi di Hub eventi e Hub eventi creati nel passaggio precedente.
Configurare Airflow con OpenLineage
Installazione:
Per scaricare e installare la libreria "openlineage-airflow" più recente, aggiornare il file "requirements.txt" dell'istanza di Airflow in esecuzione con:
openlineage-airflow
Nota
La versione airflow e la versione openlineage-airflow devono corrispondere. Ad esempio, quando si usa Airflow 2.7.1, è possibile usare openlineage-airflow versione 1.1.0 o 1.2.0. È possibile visualizzare le versioni corrispondenti in questo sito Web.
Configurazione:
Configurare quindi l'istanza di Hub eventi di Azure come destinazione a cui OpenLineage invia gli eventi.
Creare un file "openlineage.yml" nel percorso radice di Airflow. Il contenuto del file è il seguente:
transport: type: "kafka" config: bootstrap.servers: "{EVENTHUB_SERVER}:9093" security.protocol: "SASL_SSL" sasl.mechanism: "PLAIN" sasl.username: "$ConnectionString" sasl.password: "{PASSWORD}" client.id: "airflow-client" topic: "microsoft_internal_openlineage" flash: True
Sostituire i due segnaposto con i valori:
Riavviare il server Airflow.
Eseguire processi Airflow e visualizzare gli asset/derivazione
È ora possibile eseguire i processi di Airflow, quindi passare al portale di governance di Microsoft Purview per esplorare/cercare/visualizzare gli asset. Gli asset dovrebbero essere visualizzati poco dopo l'esecuzione corretta del dag.
Esplorare gli asset di Airflow:
Visualizzare i dettagli dell'asset attività Airflow con derivazione:
Suggerimenti per la risoluzione dei problemi
Se si esegue il processo Airflow ma non vengono visualizzati gli asset/derivazione corrispondenti visualizzati in Microsoft Purview:
- Controllare se il caso d'uso di Airflow è supportato da Microsoft Purview. Fare riferimento alla sezione relativa alle funzionalità supportate .
- Passare all'istanza di Hub eventi per verificare se sono presenti richieste e messaggi in ingresso. In caso contrario, controllare la configurazione openlineage in Airflow.