Delen via


Het invoerproces met schaalbare cloudanalyses in Azure

Azure biedt verschillende services voor het opnemen en vrijgeven van gegevens op systeemeigen en platformen van derden. Verschillende services kunnen worden gebruikt, afhankelijk van volume, snelheid, variatie en richting. Enkele van deze services zijn:

  • Azure Data Factory is een service die is gebouwd voor alle behoeften van data-applicaties (bronuitgelijnd) en vaardigheidsniveaus. Schrijf uw eigen code of bouw extractie-, laad- en transformatieprocessen binnen de intuïtieve visuele omgeving, zonder code. Met meer dan 90+ ingebouwde en onderhoudsvrije connectors kunt u gegevensbronnen zonder extra kosten visueel integreren. Technici kunnen privé-eindpunten gebruiken en services koppelen om veilig verbinding te maken met PaaS-resources (Platform as a Service) zonder de openbare eindpunten van de PaaS-resource te gebruiken. Ingenieurs kunnen integratieruntimes gebruiken om pijplijnen uit te breiden naar omgevingen van derden, zoals lokale gegevensbronnen en andere clouds.

Sommige van deze connectors ondersteunen het gebruik als bron (lezen) of als sink (schrijven). Azure native services, Oracle, SAP en andere kunnen worden gebruikt als bron of sink, maar niet alle connectoren ondersteunen het. In deze gevallen kunt u algemene connectors gebruiken, zoals Open Database Connectivity (ODBC), het bestandssysteem of SFTP-connectors (SSH File Transfer Protocol).

  • Azure Databricks- is een snelle, eenvoudige en gezamenlijke analyseservice op basis van Apache Spark. Voor een pijplijn voor big data kunt u de gegevens (onbewerkt of gestructureerd) opnemen in Azure via Data Factory in batches of in bijna realtime streamen met Apache Kafka, Azure Event Hubs of IoT Hubs. Deze gegevens komen terecht in een data lake voor langdurige, persistente opslag in Azure Data Lake Storage. Azure Databricks kan gegevens uit meerdere gegevensbronnen lezen als onderdeel van de werkstroom.

  • De Microsoft Power Platform biedt connectors voor honderden services die gebeurtenisgestuurd, schema gestuurd of pushgestuurd kunnen zijn. Microsoft Power Automate kan reageren op gebeurtenissen en werkstromen activeren die zijn geoptimaliseerd voor afzonderlijke records of kleine gegevensvolumes.

Eigen systeemeigen hulpprogramma's en hulpprogramma's van derden bieden nichemogelijkheden voor integratie met gespecialiseerde systemen en bijna realtime replicatie.

  • Azure Data Share ondersteunt organisaties om gegevens veilig te delen met meerdere externe klanten en partners. Nadat u een datashare-account hebt gemaakt en gegevensproducten hebt toegevoegd, kunnen klanten en partners worden uitgenodigd voor de gegevensshare. Gegevensproviders hebben altijd de controle over de gegevens die ze hebben gedeeld. Met Azure Data Share kunt u eenvoudig beheren en controleren welke gegevens worden gedeeld, wanneer deze zijn gedeeld en wie deze heeft gedeeld.

Belangrijk

Elke gegevenslandingszone kan een resourcegroep voor gegevensopname hebben die bestaat voor bedrijven met een gegevensagnostische opname-engine. Als u deze framework-engine niet hebt, dan is de enige aanbevolen actie het implementeren van een Azure Databricks Analytics-werkruimte, die door gegevensintegraties wordt gebruikt om complexe gegevensopname uit te voeren. Bekijk de data-agnostische verwerkingsengine voor mogelijke automatiseringspatronen.

Overwegingen voor gegevensinname voor Azure Data Factory

Als u een opname-engine hebt die onafhankelijk van gegevens werkt, moet u voor elke landingszone voor gegevens in de resourcegroep voor gegevensopname een afzonderlijke Data Factory implementeren. De Data Factory-werkruimte moet worden vergrendeld voor gebruikers en alleen beheerde identiteiten en service-principals hebben toegang tot de implementatie. Operaties voor gegevenslandingszones moeten leestoegang hebben om het debuggen van pijplijnen mogelijk te maken.

Gegevenstoepassing kan een eigen Data Factory hebben voor gegevensverplaatsing. Een Data Factory in elke gegevenstoepassingsresourcegroep ondersteunt een volledige CI-ervaring (continue integratie) en continue implementatie (CD) door alleen toe te staan dat pijplijnen worden geïmplementeerd vanuit Azure DevOps of GitHub.

Alle Data Factory-werkruimten gebruiken meestal de functie beheerd virtueel netwerk (VNet) in Data Factory of zelf-hostende Integration Runtime voor hun datalandingszone binnen de landingszone voor gegevensbeheer. Technici worden aangemoedigd om de beheerde VNet-functie te gebruiken om veilig verbinding te maken met de Azure PaaS-resource.

Het is echter mogelijk om meer integratieruntimes te maken voor het integreren van gegevensbronnen vanuit on-premises oplossingen, clouds van derden, en SaaS-gegevensbronnen (software-als-een-dienst).

Overwegingen voor data-invoer voor Azure Databricks

In deze richtlijnen wordt dieper ingegaan op de informatie in:

  • Toegang tot Azure Data Lake Storage Gen2 beveiligen vanuit Azure Databricks

  • Beste praktijken voor Azure Databricks

  • Voor ontwikkeling moeten integratie-operaties hun eigen Azure Databricks-omgevingen hebben voordat code wordt ingecheckt die tijdens de test- en productiefase in één enkele Azure Databricks-werkruimte moet worden geïmplementeerd.

  • Data Factory in de gegevenstoepassing (bron uitgelijnde) resourcegroep moet het framework bieden voor het aanroepen van Azure Databricks-taken.

  • Teams voor gegevenstoepassingen kunnen korte, geautomatiseerde taken implementeren in Azure Databricks en verwachten dat hun clusters snel starten, de taak uitvoeren en beëindigen. Het is raadzaam om Azure Databricks-pools in te stellen om de tijd te verkorten die clusters nodig hebben om taken uit te voeren.

  • Organisaties raden organisaties aan Azure DevOps te gebruiken om een implementatieframework voor nieuwe pijplijnen te implementeren. Het framework wordt gebruikt om de mappen met gegevenssets te maken, toegangsbeheerlijsten toe te wijzen en een tabel te maken met of zonder dat toegangsbeheer voor Databricks-tabellen wordt afgedwongen.

Streamverwerking

Organisaties moeten mogelijk scenario's ondersteunen waarbij uitgevers gebeurtenisstromen met hoge snelheid genereren. Voor dit patroon wordt een berichtenwachtrij aanbevolen, bijvoorbeeld Event Hubs of IoT Hub, om deze streams op te nemen.

Event Hubs en IoT Hub zijn schaalbare services voor gebeurtenisverwerking die grote gebeurtenisvolumes en -gegevens met lage latentie en hoge betrouwbaarheid kunnen opnemen en verwerken. Event Hubs is ontworpen als een service voor het streamen van big data en gebeurtenisopname. IoT Hub is een beheerde service die fungeert als een centrale berichtenhub voor bidirectionele communicatie tussen een IoT-toepassing en de apparaten die worden beheerd. Van daaruit kunnen gegevens met regelmatige tussenpozen (batch) naar een data lake worden geëxporteerd en in bijna realtime worden verwerkt met Azure Databricks via Apache Spark Streaming, Azure Data Explorer, Stream Analytics of Time Series Insights.

De laatste Event Hubs- of Apache Kafka-landingszone in de landingszone van de use case moet de geaggregeerde gegevens verzenden naar de onbewerkte laag van de data lake in een van de gegevenslandingszones en naar Event Hubs die betrekking hebben op de gegevenstoepassing in de brongerelateerde resourcegroep in de gegevenslandingszone.

Het innameproces bewaken

Out-of-the-box Azure Data Factory-pijplijnbewaking kan worden gebruikt om de uitzonderingen van de Data Factory-pijplijnen te bewaken en op te lossen. Het vermindert de inspanning om een aangepaste bewakings- en rapportageoplossing te ontwikkelen.

Ingebouwde bewaking is een van de belangrijkste redenen om Azure Data Factory te gebruiken als een hoofdindelingsprogramma en Azure Policy kan helpen om deze installatie te automatiseren.

Volgende stappen

SAP-opname met analyses op cloudschaal in Azure