Condividi tramite


Scegliere una tecnologia di orchestrazione della pipeline di dati in Azure

La maggior parte delle soluzioni Big Data è costituita da operazioni ripetute di elaborazione dei dati, incapsulate nei flussi di lavoro. Un agente di orchestrazione della pipeline è uno strumento che consente di automatizzare questi flussi di lavoro. Un agente di orchestrazione può pianificare processi, eseguire flussi di lavoro e coordinare le dipendenze tra le attività.

Quali sono le opzioni per l'orchestrazione della pipeline di dati?

In Azure, i servizi e gli strumenti seguenti soddisfano i requisiti di base per l'orchestrazione della pipeline, il flusso di controllo e lo spostamento dei dati:

Questi servizi e strumenti possono essere usati in modo indipendente l'uno dall'altro o usati insieme per creare una soluzione ibrida. Ad esempio, Integration Runtime (IR) in Azure Data Factory V2 può eseguire in modo nativo pacchetti SSIS in un ambiente di calcolo di Azure gestito. Sebbene vi sia qualche sovrapposizione nelle funzionalità tra questi servizi, esistono alcune differenze principali.

Criteri di selezione chiave

Per restringere le scelte, iniziare rispondendo a queste domande:

  • Sono necessarie funzionalità di Big Data per lo spostamento e la trasformazione dei dati? Di solito questo significa da diversi gigabyte a terabyte di dati. In caso affermativo, restringere le opzioni a quelle più adatte per i Big Data.

  • È necessario un servizio gestito in grado di operare su larga scala? In caso affermativo, selezionare uno dei servizi basati sul cloud che non sono limitati dalla potenza di elaborazione locale.

  • Alcune delle vostre fonti di dati si trovano in loco? In caso affermativo, cercare le opzioni che possono funzionare con origini dati o destinazioni locali e cloud.

  • I tuoi dati di origine sono archiviati nella archiviazione Blob su un file system HDFS? In tal caso, scegliere un'opzione che supporti le query Hive.

Matrice di funzionalità

Le tabelle seguenti riepilogano le principali differenze nelle funzionalità.

Funzionalità generali

Capacità Azure Data Factory SQL Server Integration Services (SSIS) Oozie in HDInsight
Gestito No
Basato sul cloud No (locale)
Prerequisito Sottoscrizione di Azure SQL Server Sottoscrizione di Azure, cluster HDInsight
Strumenti di gestione Portale di Azure, PowerShell, interfaccia della riga di comando, .NET SDK SSMS, PowerShell Shell Bash, API REST Oozie, interfaccia utente Web Oozie
Prezzi Pagamento in base all'utilizzo Licenze/pagamento per le funzionalità Nessun addebito aggiuntivo sull'esecuzione del cluster HDInsight

Funzionalità della pipeline

Capacità Azure Data Factory SQL Server Integration Services (SSIS) Oozie in HDInsight
Copiare i dati
Trasformazioni personalizzate Sì (processi MapReduce, Pig e Hive)
Assegnazione dei punteggi di Azure Machine Learning Sì (con scripting) No
HDInsight su richiesta No No
Azure Batch No No
Pig, Hive, MapReduce No
Scintilla No No
Eseguire un pacchetto SSIS No
Flusso di controllo
Accedere ai dati locali No

Funzionalità di scalabilità

Capacità Azure Data Factory SQL Server Integration Services (SSIS) Oozie in HDInsight
Aumentare la scala No No
Aumentare il numero di istanze No Sì (aggiungendo nodi di lavoro al cluster)
Ottimizzato per Big Data No

Contributori

Questo articolo viene gestito da Microsoft. Originariamente è stato scritto dai collaboratori seguenti.

Autore principale:

Passaggi successivi