Scegliere una tecnologia di orchestrazione della pipeline di dati in Azure
La maggior parte delle soluzioni Big Data è costituita da operazioni ripetute di elaborazione dei dati, incapsulate nei flussi di lavoro. Un agente di orchestrazione della pipeline è uno strumento che consente di automatizzare questi flussi di lavoro. Un agente di orchestrazione può pianificare processi, eseguire flussi di lavoro e coordinare le dipendenze tra le attività.
Quali sono le opzioni per l'orchestrazione della pipeline di dati?
In Azure, i servizi e gli strumenti seguenti soddisfano i requisiti di base per l'orchestrazione della pipeline, il flusso di controllo e lo spostamento dei dati:
Questi servizi e strumenti possono essere usati in modo indipendente l'uno dall'altro o usati insieme per creare una soluzione ibrida. Ad esempio, Integration Runtime (IR) in Azure Data Factory V2 può eseguire in modo nativo pacchetti SSIS in un ambiente di calcolo di Azure gestito. Sebbene vi sia qualche sovrapposizione nelle funzionalità tra questi servizi, esistono alcune differenze principali.
Criteri di selezione chiave
Per restringere le scelte, iniziare rispondendo a queste domande:
Sono necessarie funzionalità di Big Data per lo spostamento e la trasformazione dei dati? Di solito questo significa da diversi gigabyte a terabyte di dati. In caso affermativo, restringere le opzioni a quelle più adatte per i Big Data.
È necessario un servizio gestito in grado di operare su larga scala? In caso affermativo, selezionare uno dei servizi basati sul cloud che non sono limitati dalla potenza di elaborazione locale.
Alcune delle vostre fonti di dati si trovano in loco? In caso affermativo, cercare le opzioni che possono funzionare con origini dati o destinazioni locali e cloud.
I tuoi dati di origine sono archiviati nella archiviazione Blob su un file system HDFS? In tal caso, scegliere un'opzione che supporti le query Hive.
Matrice di funzionalità
Le tabelle seguenti riepilogano le principali differenze nelle funzionalità.
Funzionalità generali
Capacità | Azure Data Factory | SQL Server Integration Services (SSIS) | Oozie in HDInsight |
---|---|---|---|
Gestito | Sì | No | Sì |
Basato sul cloud | Sì | No (locale) | Sì |
Prerequisito | Sottoscrizione di Azure | SQL Server | Sottoscrizione di Azure, cluster HDInsight |
Strumenti di gestione | Portale di Azure, PowerShell, interfaccia della riga di comando, .NET SDK | SSMS, PowerShell | Shell Bash, API REST Oozie, interfaccia utente Web Oozie |
Prezzi | Pagamento in base all'utilizzo | Licenze/pagamento per le funzionalità | Nessun addebito aggiuntivo sull'esecuzione del cluster HDInsight |
Funzionalità della pipeline
Capacità | Azure Data Factory | SQL Server Integration Services (SSIS) | Oozie in HDInsight |
---|---|---|---|
Copiare i dati | Sì | Sì | Sì |
Trasformazioni personalizzate | Sì | Sì | Sì (processi MapReduce, Pig e Hive) |
Assegnazione dei punteggi di Azure Machine Learning | Sì | Sì (con scripting) | No |
HDInsight su richiesta | Sì | No | No |
Azure Batch | Sì | No | No |
Pig, Hive, MapReduce | Sì | No | Sì |
Scintilla | Sì | No | No |
Eseguire un pacchetto SSIS | Sì | Sì | No |
Flusso di controllo | Sì | Sì | Sì |
Accedere ai dati locali | Sì | Sì | No |
Funzionalità di scalabilità
Capacità | Azure Data Factory | SQL Server Integration Services (SSIS) | Oozie in HDInsight |
---|---|---|---|
Aumentare la scala | Sì | No | No |
Aumentare il numero di istanze | Sì | No | Sì (aggiungendo nodi di lavoro al cluster) |
Ottimizzato per Big Data | Sì | No | Sì |
Contributori
Questo articolo viene gestito da Microsoft. Originariamente è stato scritto dai collaboratori seguenti.
Autore principale:
- Zoiner Tejada | CEO e architetto
Passaggi successivi
- Pipeline e Attività in Azure Data Factory e Azure Synapse Analytics
- Effettuare il provisioning del runtime di integrazione Azure-SSIS in Azure Data Factory
- Oozie in HDInsight