Välj en orkestreringsteknik för datapipelines i Azure
De flesta stordatalösningar består av upprepade databearbetningsåtgärder, inkapslade i arbetsflöden. En pipeline orchestrator är ett verktyg som hjälper till att automatisera dessa arbetsflöden. En orkestrerare kan schemalägga jobb, köra arbetsflöden och samordna beroenden mellan aktiviteter.
Vilka alternativ har du för orkestrering av datapipelines?
I Azure uppfyller följande tjänster och verktyg huvudkraven för pipelineorkestrering, kontrollflöde och dataflytt:
Dessa tjänster och verktyg kan användas oberoende av varandra eller användas tillsammans för att skapa en hybridlösning. Integration Runtime (IR) i Azure Data Factory V2 kan till exempel köra SSIS-paket internt i en hanterad Azure-beräkningsmiljö. Det finns vissa överlappningar i funktionaliteten mellan dessa tjänster, men det finns några viktiga skillnader.
Kriterier för nyckelval
För att begränsa alternativen börjar du med att svara på följande frågor:
Behöver du stordatafunktioner för att flytta och transformera dina data? Det innebär vanligtvis flera gigabyte till terabyte med data. Om ja, begränsa sedan dina alternativ till de som passar bäst för stordata.
Behöver du en hanterad tjänst som kan fungera i stor skala? Om ja väljer du en av de molnbaserade tjänster som inte begränsas av din lokala bearbetningskraft.
Finns några av dina datakällor lokalt? Om ja letar du efter alternativ som kan fungera med både molnbaserade och lokala datakällor eller mål.
Lagras dina källdata i Blob Storage i ett HDFS-filsystem? I så fall väljer du ett alternativ som stöder Hive-frågor.
Kapacitetsmatris
I följande tabeller sammanfattas de viktigaste skillnaderna i funktioner.
Allmänna funktioner
Förmåga | Azure Data Factory | SQL Server Integration Services (SSIS) | Oozie på HDInsight |
---|---|---|---|
Administrerad | Ja | Nej | Ja |
Molnbaserad | Ja | Nej (lokal) | Ja |
Förutsättning | Azure-prenumeration | SQL Server | Azure-prenumeration, HDInsight-kluster |
Hanteringsverktyg | Azure Portal, PowerShell, CLI, .NET SDK | SSMS, PowerShell | Bash shell, Oozie REST API, Oozie web UI |
Prissättning | Betala per användning | Licensiering/betala för funktioner | Ingen extra kostnad utöver att köra HDInsight-klustret |
Pipelinekapaciteter
Förmåga | Azure Data Factory | SQL Server Integration Services (SSIS) | Oozie på HDInsight |
---|---|---|---|
Kopiera data | Ja | Ja | Ja |
Anpassade omvandlingar | Ja | Ja | Ja (MapReduce-, Pig- och Hive-jobb) |
Azure Machine Learning-poängsättning | Ja | Ja (med skript) | Nej |
HDInsight på begäran | Ja | Nej | Nej |
Azure Batch | Ja | Nej | Nej |
Pig, Hive, MapReduce | Ja | Nej | Ja |
Gnista | Ja | Nej | Nej |
Köra SSIS-paket | Ja | Ja | Nej |
Kontrollflöde | Ja | Ja | Ja |
Få åtkomst till lokala data | Ja | Ja | Nej |
Skalbarhetsfunktioner
Förmåga | Azure Data Factory | SQL Server Integration Services (SSIS) | Oozie på HDInsight |
---|---|---|---|
Skala upp | Ja | Nej | Nej |
Utöka systemet | Ja | Nej | Ja (genom att lägga till arbetsnoder i klustret) |
Optimerad för stordata | Ja | Nej | Ja |
Bidragsgivare
Den här artikeln underhålls av Microsoft. Den skrevs ursprungligen av följande deltagare.
Huvudförfattare:
- Zoiner Tejada | VD och arkitekt
Nästa steg
- Pipelines och aktiviteter i Azure Data Factory och Azure Synapse Analytics
- Etablera Azure-SSIS integrationskörning i Azure Data Factory
- Oozie på HDInsight