Een indelingstechnologie voor gegevenspijplijnen kiezen in Azure

Artikel
12/14/2024

De meeste big data-oplossingen bestaan uit herhaalde gegevensverwerkingsbewerkingen, ingekapseld in werkstromen. Een pijplijnorchestrator is een hulpprogramma waarmee u deze werkstromen kunt automatiseren. Een orchestrator kan taken plannen, werkstromen uitvoeren en afhankelijkheden tussen taken coördineren.

Wat zijn uw opties voor het organiseren van gegevenspijplijnen?

In Azure voldoen de volgende services en hulpprogramma's aan de kernvereisten voor pijplijnindeling, controlestroom en gegevensverplaatsing:

Deze services en hulpprogramma's kunnen onafhankelijk van elkaar worden gebruikt of samen worden gebruikt om een hybride oplossing te maken. De Integration Runtime (IR) in Azure Data Factory V2 kan bijvoorbeeld systeemeigen SSIS-pakketten uitvoeren in een beheerde Azure-rekenomgeving. Hoewel er sprake is van enige overlapping in functionaliteit tussen deze services, zijn er enkele belangrijke verschillen.

Criteria voor sleutelselectie

Om de keuzes te beperken, beantwoordt u eerst deze vragen:

Hebt u big data-mogelijkheden nodig voor het verplaatsen en transformeren van uw gegevens? Dit betekent meestal meerdere gigabytes tot terabytes aan gegevens. Zo ja, dan beperkt u uw opties tot de opties die het meest geschikt zijn voor big data.
Hebt u een beheerde service nodig die op schaal kan worden uitgevoerd? Zo ja, selecteert u een van de cloudservices die niet worden beperkt door uw lokale verwerkingskracht.
Bevinden sommige van uw gegevensbronnen zich on-premises? Zo ja, zoek dan naar opties die kunnen werken met zowel cloud- als on-premises gegevensbronnen of bestemmingen.
Worden uw brongegevens opgeslagen in Blob Storage in een HDFS-bestandssysteem? Als dat het zo is, kiest u een optie die Hive-query's ondersteunt.

Mogelijkheidsmatrix

De volgende tabellen bevatten een overzicht van de belangrijkste verschillen in mogelijkheden.

Algemene mogelijkheden

Vermogen	Azure Data Factory	SQL Server Integration Services (SSIS)	Oozie in HDInsight
Beheerd	Ja	Nee	Ja
Cloudgebaseerde	Ja	Nee (lokaal)	Ja
Voorwaarde	Azure-abonnement	SQL Server	Azure-abonnement, HDInsight-cluster
Beheerhulpprogramma's	Azure Portal, PowerShell, CLI, .NET SDK	SSMS, PowerShell	Bash-shell, Oozie REST API, Oozie-webinterface
Prijzen	Betalen per gebruik	Licenties/betalen voor functies	Er worden geen extra kosten in rekening gebracht voor het uitvoeren van het HDInsight-cluster

Pijplijnmogelijkheden

Vermogen	Azure Data Factory	SQL Server Integration Services (SSIS)	Oozie in HDInsight
Gegevens kopiëren	Ja	Ja	Ja
Aangepaste transformaties	Ja	Ja	Ja (MapReduce, Pig en Hive-taken)
Beoordeling van Azure Machine Learning	Ja	Ja (met scripting)	Nee
HDInsight Op Aanvraag	Ja	Nee	Nee
Azure Batch	Ja	Nee	Nee
Pig, Hive, MapReduce	Ja	Nee	Ja
Vonk	Ja	Nee	Nee
SSIS-pakket uitvoeren	Ja	Ja	Nee
Controlestroom	Ja	Ja	Ja
Toegang tot on-premises gegevens	Ja	Ja	Nee

Schaalbaarheidsmogelijkheden

Vermogen	Azure Data Factory	SQL Server Integration Services (SSIS)	Oozie in HDInsight
Opschalen	Ja	Nee	Nee
Uitschalen	Ja	Nee	Ja (door werkknooppunten toe te voegen aan het cluster)
Geoptimaliseerd voor big data	Ja	Nee	Ja

Medewerkers

Dit artikel wordt onderhouden door Microsoft. Het is oorspronkelijk geschreven door de volgende inzenders.

Hoofdauteur:

Zoiner Tejada | CEO en architect

Volgende stappen

DataOps voor het moderne datawarehouse-

Delen via

Een indelingstechnologie voor gegevenspijplijnen kiezen in Azure

Wat zijn uw opties voor het organiseren van gegevenspijplijnen?

Criteria voor sleutelselectie

Mogelijkheidsmatrix

Algemene mogelijkheden

Pijplijnmogelijkheden

Schaalbaarheidsmogelijkheden

Medewerkers

Volgende stappen

Feedback

Aanvullende resources

Delen via

Een indelingstechnologie voor gegevenspijplijnen kiezen in Azure

Wat zijn uw opties voor het organiseren van gegevenspijplijnen?

Criteria voor sleutelselectie

Mogelijkheidsmatrix

Algemene mogelijkheden

Pijplijnmogelijkheden

Schaalbaarheidsmogelijkheden

Medewerkers

Volgende stappen

Gerelateerde resources

Feedback

Aanvullende resources