Scegliere una tecnologia di orchestrazione della pipeline di dati in Azure

Articolo
12/14/2024

La maggior parte delle soluzioni Big Data è costituita da operazioni ripetute di elaborazione dei dati, incapsulate nei flussi di lavoro. Un agente di orchestrazione della pipeline è uno strumento che consente di automatizzare questi flussi di lavoro. Un agente di orchestrazione può pianificare processi, eseguire flussi di lavoro e coordinare le dipendenze tra le attività.

Quali sono le opzioni per l'orchestrazione della pipeline di dati?

In Azure, i servizi e gli strumenti seguenti soddisfano i requisiti di base per l'orchestrazione della pipeline, il flusso di controllo e lo spostamento dei dati:

Questi servizi e strumenti possono essere usati in modo indipendente l'uno dall'altro o usati insieme per creare una soluzione ibrida. Ad esempio, Integration Runtime (IR) in Azure Data Factory V2 può eseguire in modo nativo pacchetti SSIS in un ambiente di calcolo di Azure gestito. Sebbene vi sia qualche sovrapposizione nelle funzionalità tra questi servizi, esistono alcune differenze principali.

Criteri di selezione chiave

Per restringere le scelte, iniziare rispondendo a queste domande:

Sono necessarie funzionalità di Big Data per lo spostamento e la trasformazione dei dati? Di solito questo significa da diversi gigabyte a terabyte di dati. In caso affermativo, restringere le opzioni a quelle più adatte per i Big Data.
È necessario un servizio gestito in grado di operare su larga scala? In caso affermativo, selezionare uno dei servizi basati sul cloud che non sono limitati dalla potenza di elaborazione locale.
Alcune delle vostre fonti di dati si trovano in loco? In caso affermativo, cercare le opzioni che possono funzionare con origini dati o destinazioni locali e cloud.
I tuoi dati di origine sono archiviati nella archiviazione Blob su un file system HDFS? In tal caso, scegliere un'opzione che supporti le query Hive.

Matrice di funzionalità

Le tabelle seguenti riepilogano le principali differenze nelle funzionalità.

Funzionalità generali

Capacità	Azure Data Factory	SQL Server Integration Services (SSIS)	Oozie in HDInsight
Gestito	Sì	No	Sì
Basato sul cloud	Sì	No (locale)	Sì
Prerequisito	Sottoscrizione di Azure	SQL Server	Sottoscrizione di Azure, cluster HDInsight
Strumenti di gestione	Portale di Azure, PowerShell, interfaccia della riga di comando, .NET SDK	SSMS, PowerShell	Shell Bash, API REST Oozie, interfaccia utente Web Oozie
Prezzi	Pagamento in base all'utilizzo	Licenze/pagamento per le funzionalità	Nessun addebito aggiuntivo sull'esecuzione del cluster HDInsight

Funzionalità della pipeline

Capacità	Azure Data Factory	SQL Server Integration Services (SSIS)	Oozie in HDInsight
Copiare i dati	Sì	Sì	Sì
Trasformazioni personalizzate	Sì	Sì	Sì (processi MapReduce, Pig e Hive)
Assegnazione dei punteggi di Azure Machine Learning	Sì	Sì (con scripting)	No
HDInsight su richiesta	Sì	No	No
Azure Batch	Sì	No	No
Pig, Hive, MapReduce	Sì	No	Sì
Scintilla	Sì	No	No
Eseguire un pacchetto SSIS	Sì	Sì	No
Flusso di controllo	Sì	Sì	Sì
Accedere ai dati locali	Sì	Sì	No

Funzionalità di scalabilità

Capacità	Azure Data Factory	SQL Server Integration Services (SSIS)	Oozie in HDInsight
Aumentare la scala	Sì	No	No
Aumentare il numero di istanze	Sì	No	Sì (aggiungendo nodi di lavoro al cluster)
Ottimizzato per Big Data	Sì	No	Sì

Contributori

Questo articolo viene gestito da Microsoft. Originariamente è stato scritto dai collaboratori seguenti.

Autore principale:

Zoiner Tejada | CEO e architetto

Passaggi successivi

DataOps per il data warehouse moderno

Condividi tramite

Scegliere una tecnologia di orchestrazione della pipeline di dati in Azure

Quali sono le opzioni per l'orchestrazione della pipeline di dati?

Criteri di selezione chiave

Matrice di funzionalità

Funzionalità generali

Funzionalità della pipeline

Funzionalità di scalabilità

Contributori

Passaggi successivi

Commenti e suggerimenti

Risorse aggiuntive

Condividi tramite

Scegliere una tecnologia di orchestrazione della pipeline di dati in Azure

Quali sono le opzioni per l'orchestrazione della pipeline di dati?

Criteri di selezione chiave

Matrice di funzionalità

Funzionalità generali

Funzionalità della pipeline

Funzionalità di scalabilità

Contributori

Passaggi successivi

Risorse correlate

Commenti e suggerimenti

Risorse aggiuntive