Een indelingstechnologie voor gegevenspijplijnen kiezen in Azure
De meeste big data-oplossingen bestaan uit herhaalde gegevensverwerkingsbewerkingen, ingekapseld in werkstromen. Een pijplijnorchestrator is een hulpprogramma waarmee u deze werkstromen kunt automatiseren. Een orchestrator kan taken plannen, werkstromen uitvoeren en afhankelijkheden tussen taken coƶrdineren.
Wat zijn uw opties voor het organiseren van gegevenspijplijnen?
In Azure voldoen de volgende services en hulpprogramma's aan de kernvereisten voor pijplijnindeling, controlestroom en gegevensverplaatsing:
Deze services en hulpprogramma's kunnen onafhankelijk van elkaar worden gebruikt of samen worden gebruikt om een hybride oplossing te maken. De Integration Runtime (IR) in Azure Data Factory V2 kan bijvoorbeeld systeemeigen SSIS-pakketten uitvoeren in een beheerde Azure-rekenomgeving. Hoewel er sprake is van enige overlapping in functionaliteit tussen deze services, zijn er enkele belangrijke verschillen.
Criteria voor sleutelselectie
Om de keuzes te beperken, beantwoordt u eerst deze vragen:
Hebt u big data-mogelijkheden nodig voor het verplaatsen en transformeren van uw gegevens? Dit betekent meestal meerdere gigabytes tot terabytes aan gegevens. Zo ja, dan beperkt u uw opties tot de opties die het meest geschikt zijn voor big data.
Hebt u een beheerde service nodig die op schaal kan worden uitgevoerd? Zo ja, selecteert u een van de cloudservices die niet worden beperkt door uw lokale verwerkingskracht.
Bevinden sommige van uw gegevensbronnen zich on-premises? Zo ja, zoek dan naar opties die kunnen werken met zowel cloud- als on-premises gegevensbronnen of bestemmingen.
Worden uw brongegevens opgeslagen in Blob Storage in een HDFS-bestandssysteem? Als dat het zo is, kiest u een optie die Hive-query's ondersteunt.
Mogelijkheidsmatrix
De volgende tabellen bevatten een overzicht van de belangrijkste verschillen in mogelijkheden.
Algemene mogelijkheden
Mogelijkheid | Azure Data Factory | SQL Server Integration Services (SSIS) | Oozie in HDInsight |
---|---|---|---|
Beheerd | Ja | No | Ja |
Cloudgebaseerde | Ja | Nee (lokaal) | Ja |
Vereiste | Azure-abonnement | SQL Server | Azure-abonnement, HDInsight-cluster |
Beheerhulpprogramma's | Azure Portal, PowerShell, CLI, .NET SDK | SSMS, PowerShell | Bash-shell, Oozie REST API, Oozie-webinterface |
Prijzen | Betalen per gebruik | Licenties/betalen voor functies | Er worden geen extra kosten in rekening gebracht voor het uitvoeren van het HDInsight-cluster |
Pijplijnmogelijkheden
Mogelijkheid | Azure Data Factory | SQL Server Integration Services (SSIS) | Oozie in HDInsight |
---|---|---|---|
Gegevens kopiƫren | Ja | Ja | Ja |
Aangepaste transformaties | Ja | Ja | Ja (MapReduce-, Pig- en Hive-taken) |
Scoren van Azure Machine Learning | Ja | Ja (met scripting) | Nee |
HDInsight On-Demand | Ja | No | Nr. |
Azure Batch | Ja | No | Nr. |
Pig, Hive, MapReduce | Ja | No | Ja |
Spark | Ja | No | Nr. |
SSIS-pakket uitvoeren | Ja | Ja | Nr. |
Controlestroom | Ja | Ja | Ja |
Toegang tot on-premises gegevens | Ja | Ja | Nr. |
Schaalbaarheidsmogelijkheden
Mogelijkheid | Azure Data Factory | SQL Server Integration Services (SSIS) | Oozie in HDInsight |
---|---|---|---|
Omhoog schalen | Ja | No | Nr. |
Uitschalen | Ja | Nr. | Ja (door werkknooppunten toe te voegen aan het cluster) |
Geoptimaliseerd voor big data | Ja | No | Ja |
Medewerkers
Dit artikel wordt onderhouden door Microsoft. De tekst is oorspronkelijk geschreven door de volgende Inzenders.
Hoofdauteur:
- Zoiner Tejada | CEO en architect
Volgende stappen
- Pijplijnen en activiteiten in Azure Data Factory en Azure Synapse Analytics
- De Azure-SSIS Integration Runtime inrichten in Azure Data Factory
- Oozie in HDInsight