Delen via


Een indelingstechnologie voor gegevenspijplijnen kiezen in Azure

De meeste big data-oplossingen bestaan uit herhaalde gegevensverwerkingsbewerkingen, ingekapseld in werkstromen. Een pijplijnorchestrator is een hulpprogramma waarmee u deze werkstromen kunt automatiseren. Een orchestrator kan taken plannen, werkstromen uitvoeren en afhankelijkheden tussen taken coƶrdineren.

Wat zijn uw opties voor het organiseren van gegevenspijplijnen?

In Azure voldoen de volgende services en hulpprogramma's aan de kernvereisten voor pijplijnindeling, controlestroom en gegevensverplaatsing:

Deze services en hulpprogramma's kunnen onafhankelijk van elkaar worden gebruikt of samen worden gebruikt om een hybride oplossing te maken. De Integration Runtime (IR) in Azure Data Factory V2 kan bijvoorbeeld systeemeigen SSIS-pakketten uitvoeren in een beheerde Azure-rekenomgeving. Hoewel er sprake is van enige overlapping in functionaliteit tussen deze services, zijn er enkele belangrijke verschillen.

Criteria voor sleutelselectie

Om de keuzes te beperken, beantwoordt u eerst deze vragen:

  • Hebt u big data-mogelijkheden nodig voor het verplaatsen en transformeren van uw gegevens? Dit betekent meestal meerdere gigabytes tot terabytes aan gegevens. Zo ja, dan beperkt u uw opties tot de opties die het meest geschikt zijn voor big data.

  • Hebt u een beheerde service nodig die op schaal kan worden uitgevoerd? Zo ja, selecteert u een van de cloudservices die niet worden beperkt door uw lokale verwerkingskracht.

  • Bevinden sommige van uw gegevensbronnen zich on-premises? Zo ja, zoek dan naar opties die kunnen werken met zowel cloud- als on-premises gegevensbronnen of bestemmingen.

  • Worden uw brongegevens opgeslagen in Blob Storage in een HDFS-bestandssysteem? Als dat het zo is, kiest u een optie die Hive-query's ondersteunt.

Mogelijkheidsmatrix

De volgende tabellen bevatten een overzicht van de belangrijkste verschillen in mogelijkheden.

Algemene mogelijkheden

Vermogen Azure Data Factory SQL Server Integration Services (SSIS) Oozie in HDInsight
Beheerd Ja Nee Ja
Cloudgebaseerde Ja Nee (lokaal) Ja
Voorwaarde Azure-abonnement SQL Server Azure-abonnement, HDInsight-cluster
Beheerhulpprogramma's Azure Portal, PowerShell, CLI, .NET SDK SSMS, PowerShell Bash-shell, Oozie REST API, Oozie-webinterface
Prijzen Betalen per gebruik Licenties/betalen voor functies Er worden geen extra kosten in rekening gebracht voor het uitvoeren van het HDInsight-cluster

Pijplijnmogelijkheden

Vermogen Azure Data Factory SQL Server Integration Services (SSIS) Oozie in HDInsight
Gegevens kopiƫren Ja Ja Ja
Aangepaste transformaties Ja Ja Ja (MapReduce, Pig en Hive-taken)
Beoordeling van Azure Machine Learning Ja Ja (met scripting) Nee
HDInsight Op Aanvraag Ja Nee Nee
Azure Batch Ja Nee Nee
Pig, Hive, MapReduce Ja Nee Ja
Vonk Ja Nee Nee
SSIS-pakket uitvoeren Ja Ja Nee
Controlestroom Ja Ja Ja
Toegang tot on-premises gegevens Ja Ja Nee

Schaalbaarheidsmogelijkheden

Vermogen Azure Data Factory SQL Server Integration Services (SSIS) Oozie in HDInsight
Opschalen Ja Nee Nee
Uitschalen Ja Nee Ja (door werkknooppunten toe te voegen aan het cluster)
Geoptimaliseerd voor big data Ja Nee Ja

Medewerkers

Dit artikel wordt onderhouden door Microsoft. Het is oorspronkelijk geschreven door de volgende inzenders.

Hoofdauteur:

Volgende stappen