Che cos'è Gestore dell'orchestrazione del flusso di lavoro?
SI APPLICA A: Azure Data Factory
Azure Synapse Analytics
Suggerimento
Provare Data Factory in Microsoft Fabric, una soluzione di analisi all-in-one per le aziende. Microsoft Fabric copre tutto, dallo spostamento dati al data science, all'analisi in tempo reale, alla business intelligence e alla creazione di report. Vedere le informazioni su come iniziare una nuova prova gratuita!
Nota
Apache Airflow è ora accessibile tramite Microsoft Fabric. Microsoft Fabric offre un'ampia gamma di funzionalità Apache Airflow tramite flussi di lavoro di dati. È consigliabile eseguire la migrazione dei flussi di lavoro esistenti basati su gestore dell'orchestrazione del flusso di lavoro (Apache Airflow in Azure Data Factory) a Flussi di lavoro dei dati (Apache Airflow in Microsoft Fabric) per un set più ampio di funzionalità. Le funzionalità di Apache Airflow saranno disponibili a livello generale solo in Q1 CY2025 in Microsoft Fabric. Per i nuovi progetti Apache Airflow, è consigliabile usare Apache Airflow in Microsoft Fabric. Per informazioni dettagliate, vedere questo articolo. I nuovi utenti non potranno creare un nuovo gestore di orchestrazione del flusso di lavoro in Azure Data Factory, ma gli utenti esistenti con un gestore di orchestrazione del flusso di lavoro potrebbero continuare a usarlo, pianificando una migrazione a breve.
Nota
Gestore dell'orchestrazione del flusso di lavoro per Azure Data Factory si basa sull'applicazione Apache Airflow open source. La documentazione e altre esercitazioni per Airflow sono disponibili nelle pagine della documentazione o della community di Apache Airflow.
Azure Data Factory offre pipeline serverless per l'orchestrazione dei processi di dati, lo spostamento dei dati con più di 100 connettori gestiti e trasformazioni visive con il flusso di dati per mapping.
Il servizio Gestore dell'orchestrazione del flusso di lavoro di Azure Data Factory è un modo semplice ed efficiente per creare e gestire ambienti Apache Airflow, in modo da eseguire facilmente pipeline di dati su larga scala. Apache Airflow è una piattaforma open source utilizzata per creare, pianificare e monitorare flussi di lavoro di dati complessi a livello di programmazione. Consente di definire un set di attività, denominate operatori, che possono essere combinate in grafi diretti aciclici (DAG) per rappresentare le pipeline di dati. Airflow consente di eseguire questi dag in base a una pianificazione o in risposta a un evento, monitorare lo stato dei flussi di lavoro e fornire visibilità sullo stato di ogni attività. È ampiamente usato nell'ingegneria dei dati e nell'analisi scientifica dei dati per orchestrare le pipeline di dati ed è noto per la flessibilità, l'espandibilità e la facilità d'uso.
Quando usare gestore dell'orchestrazione del flusso di lavoro?
Azure Data Factory offre pipeline per orchestrare visivamente i processi di dati (creazione basata sull'interfaccia utente). Mentre gestore dell'orchestrazione del flusso di lavoro, offre DAG Python basati su Airflow (creazione basata sul codice Python) per definire il processo di orchestrazione dei dati. Se si hanno conoscenze di Airflow o si usa Apache Airflow, è consigliabile usare gestore dell'orchestrazione del flusso di lavoro anziché le pipeline. Al contrario, se non si vogliono scrivere/gestire DAG basati su Python per l'orchestrazione dei processi di dati, è preferibile usare le pipeline.
Con gestore dell'orchestrazione del flusso di lavoro, Azure Data Factory offre ora funzionalità di orchestrazione multipla che si estendono su requisiti di orchestrazione visuali, incentrati sul codice e oss.
Funzionalità
Gestore dell'orchestrazione del flusso di lavoro in Azure Data Factory offre una gamma di funzionalità avanzate, tra cui:
- Distribuzione rapida e semplice è possibile configurare Apache Airflow in modo rapido e semplice selezionando una versione di Apache Airflow quando si crea un gestore dell'orchestrazione del flusso di lavoro.
- Scalabilità cloud: gestore dell'orchestrazione del flusso di lavoro ridimensiona automaticamente i nodi Apache Airflow quando necessario in base alla specifica dell'intervallo (min, max).
- Integrazione con Microsoft Entra: è possibile abilitare il controllo degli accessi in base al ruolo di Microsoft Entra nell'ambiente Airflow per un'esperienza single sign-on protetta da Microsoft Entra ID.
- Crittografia dei metadati: gestore dell'orchestrazione del flusso di lavoro crittografa automaticamente i metadati usando chiavi gestite da Azure per assicurarsi che l'ambiente sia sicuro per impostazione predefinita. Supporta anche la doppia crittografia con una chiave gestita dal cliente.
- Monitoraggio e avvisi di Azure: tutti i log generati da gestore dell'orchestrazione del flusso di lavoro vengono esportati in Monitoraggio di Azure. Fornisce anche metriche per tenere traccia delle condizioni critiche e fornire una notifica in caso di necessità.
Architettura
Disponibilità dell'area (anteprima pubblica)
- Stati Uniti orientali
- Stati Uniti centro-meridionali
- Stati Uniti occidentali
- Brasile meridionale
- Regno Unito meridionale
- Europa settentrionale
- Europa occidentale
- Asia sud-orientale
Nota
Per impostazione predefinita, l'area dell'ambiente Airflow è l'area Data Factory e non è configurabile, quindi assicurarsi di usare una Data Factory nell'area supportata precedente per poter accedere all'anteprima di gestore dell'orchestrazione del flusso di lavoro.
Versioni supportate di Apache Airflow
- 2.6.3
Nota
La modifica della versione di Airflow in un runtime di integrazione esistente non è supportata. La soluzione consigliata consiste invece nel creare un nuovo Airflow IR con la versione desiderata
Integrazioni
Apache Airflow si integra con i servizi di Microsoft Azure tramite il provider microsoft.azure.
È possibile installare qualsiasi pacchetto del provider modificando l'ambiente Airflow dall'interfaccia utente di Azure Data Factory. L'installazione del pacchetto richiede circa un paio di minuti.
Limiti
- Gestore dell'orchestrazione del flusso di lavoro in altre aree è disponibile per disponibilità generale.
- Le origini dati che si connettono tramite flusso di aria devono essere accessibili tramite endpoint pubblico (rete).
- I gruppi di disponibilità all'interno di un archivio BLOB nella rete virtuale/dietro il firewall non sono attualmente supportati. È invece consigliabile usare la funzionalità di sincronizzazione Git di gestore dell'orchestrazione del flusso di lavoro. Vedere Sincronizzare un repository GitHub in gestore dell'orchestrazione del flusso di lavoro
- L'importazione di dag da Azure Key Vault non è supportata in LinkedServices.