Delen via


Meerdere gegevenszones voor analyses op cloudschaal in Azure

Deze referentiearchitectuur is bedoeld voor organisaties die een basisversie van analyses op cloudschaal hebben geïmplementeerd en nu klaar zijn om nieuwe bedrijfseenheden te hosten om hun analysebewerkingen te moderniseren. In dit complexere scenario worden meerdere landingszones, gegevenstoepassingen en gegevensproducten gebruikt.

Apache Hive en het Hive-logo zijn gedeponeerde handelsmerken of handelsmerken van de Apache Software Foundation in de Verenigde Staten en/of andere landen. Er wordt geen goedkeuring door De Apache Software Foundation geïmpliceerd door het gebruik van deze markeringen.

Probleemverklaring

Relecloud, het fictieve bedrijf in dit voorbeeld, is een privécloudprovider die gedeelde computing- en opslagresources biedt aan wereldwijde organisaties. Hoewel Relecloud rekenresources biedt, willen ze hun platform niet beperken met hun eigen interne bewerkingen. Daarom zijn ze afhankelijk van Microsoft Azure voor hun interne rekenbehoeften.

Gegevensanalisten in de operations-groep gebruiken telemetriegegevens van cloudservices om te begrijpen hoe hun klanten het platform gebruiken. Een afzonderlijk team van analisten in de factureringsgroep onderzoekt factureringsgegevens om inzicht te krijgen in welke services de meeste omzet genereren.

Vorig kwartaal heeft het operations-team het analyseplatform gemoderniseerd door het naar Azure te migreren. Een doel bij het implementeren van cloudanalyses was het maximaliseren van het potentieel voor het schalen van het platform en het toevoegen van nieuwe organisatieworkloads.

Tegenwoordig is de factureringsgroep de huidige analyseoplossing ontgroeid. Het te analyseren volume van facturen is te groot voor hun on-premises server. Het team besluit de lead van de operations-groep te volgen en hun data analytics-platform in Azure te moderniseren.

Analisten in de factureringsgroep hebben andere vaardigheden dan analisten in de operationele groep. De factureringsanalisten willen niet worden beperkt tot het gebruik van dezelfde hulpprogramma's als bewerkingen. De factureringsgroep bevindt zich in een ander deel van de organisatie en wil de flexibiliteit om het beleid en de procedures te implementeren die aan hun behoeften voldoen.

Architecturale oplossing

Relecloud schaalt hun analyseplatform door een nieuwe landingszone toe te voegen voor de factureringsgroep. Deze landingszone biedt een virtuele werkruimte voor de factureringsgroep om de analyseoplossingen te implementeren die voldoen aan hun bedrijfsbehoeften. Door een landingszone gescheiden te hebben van de andere resources van de organisatie, kan de factureringsgroep hun eigen toegangsbeleid implementeren en rekening houden met de kosten van hun services.

Het volgende diagram vertegenwoordigt niet alle Azure-services. Het diagram is vereenvoudigd om de belangrijkste concepten van het organiseren van resources binnen de architectuur te benadrukken.

diagram van een architectuur met meerdere landingszones voor analyse op cloudschaal.

Landingszone voor gegevensbeheer

Een belangrijke vereiste voor een cloudanalyse-implementatie is een landingszone voor gegevensbeheer. Dit abonnement bevat resources die worden gedeeld in alle landingszones, inclusief gedeelde netwerkonderdelen, zoals een firewall of privé-DNS-zones. Het omvat ook resources voor gegevens en cloudgovernance. Microsoft Purview en Databricks Unity Catalog zijn geïmplementeerd als services op tenantniveau.

Relecloud heeft een landingszone voor gegevensbeheer gemaakt bij het implementeren van de oplossing voor gegevensanalyse voor de bewerkingsgroep. Wanneer de factureringsgroep lid wordt van het platform, gebruiken ze dezelfde landingszone voor gegevensbeheer om gemeenschappelijke resources te delen met de bewerkingsgroep.

Landingszone voor bewerkingsgegevens

De operationele groep heeft de volgende oplossingen in de data-landingzone.

Bewerkingsgegevenstoepassingen

Het team heeft een op de bron afgestemde gegevenstoepassing gebouwd die Apache Spark-taken in Azure Databricks gebruikt om servicetelemetriegegevens op te nemen en op te slaan in een Azure Data Lake Storage-account.

Met dit proces worden de gegevens as-is gekopieerd van het bronsysteem, maar worden deze niet getransformeerd. Analisten kunnen met de gekopieerde gegevens in het analyseplatform werken zonder het bronsysteem te overbelasten. In plaats van een toegewezen implementatie voor deze gegevenstoepassing te maken, gebruikt het operations-team de Databricks-werkruimte in de gedeelde Opnemen & Verwerken resourcegroep.

Relecloud-klanten kunnen cloudaccounts maken voor het beheren van resources en facturering in hun privéclouds. Elke klant kan meerdere accounts hebben. Het analyseteam heeft een gegevenstoepassing gebouwd om de gegevens van het cloudaccount te importeren. Omdat het volume en de frequentie van gegevens veel lager zijn dan voor telemetriegegevens, hoeft het team geen Spark-taken te gebruiken. In plaats daarvan hebben ze Azure Data Factory-pijplijnen gemaakt om de gegevens te kopiëren.

Azure Database for MySQL fungeert als de Hive-metastore en Azure SQL Database is de Azure Data Factory-metastore.

Bewerkingsgegevensproducten

Relecloud-analisten krijgen waarde van de gegevens in de op de bron afgestemde gegevenstoepassingen door nieuwe, op de consument afgestemde gegevenstoepassingen te maken. Een van deze op de consument afgestemde gegevenstoepassingen is een Cloud Service-aanbevelingsmodel. Relecloud-gegevenswetenschappers hebben Azure Machine Learning gebruikt om een model te bouwen waarmee wordt gekeken naar de services die door een cloudaccount worden gebruikt en gerelateerde services worden voorgesteld die nuttig kunnen zijn. Het team implementeert dit model in een AKS-cluster (Azure Kubernetes Service) dat wordt uitgevoerd in de landingszone en wordt beheerd door Azure Machine Learning. Toepassingen die buiten cloudanalyses worden uitgevoerd, kunnen het AKS-eindpunt aanroepen om aanbevelingen te krijgen.

Nadat het factureringsteam de landingszone heeft gemaakt, maakt het operations-team een nieuw gegevensproduct dat het managementteam aanvraagt. Het managementteam wil weten hoeveel omzet de Cloud-service aanbevelings--datatoepassing genereert. De nieuwe Aanbevelingsopbrengst gegevensproduct maakt gebruik van Azure Synapse Analytics om gegevens uit cloudserviceaanbeveelaar en Revenue by service te combineren tot een nieuw gegevensproduct. Bedrijfsanalisten kunnen verbinding maken met Azure Synapse met Microsoft Power BI om inzichten uit dit nieuwe gegevensproduct te vinden en te rapporteren.

Landingszone voor factureringsgegevens

De factureringsgroep maakte gebruik van een on-premises systeem om hun analyses in te schakelen, maar naarmate het gegevensvolume groeide en het bedrijf meer op hun werk vertrouwde, kon het systeem het tempo niet bijhouden. De groep moderniseert hun platform door over te stappen naar de cloud.

De factureringsgroep deelt geen landingszone met de bewerkingsgroep, maar krijgt een eigen landingszone waar ze de vrijheid hebben om het platform te bouwen dat het beste bij hun behoeften past. De nieuwe landingszone is verbonden met de landingszone voor gegevensbeheer en alle andere landingszones met peering van virtuele netwerken. Met dit mechanisme kunnen gegevens veilig worden gedeeld via het interne Azure-netwerk.

Toepassingen voor factureringsgegevens

De factureringsgroep bouwt twee gegevenstoepassingen om gegevens van bestaande systemen in het analyseplatform te plaatsen. De eerste toepassing neemt de klantgegevens op, inclusief de volledige lijst met klanten en alle gerelateerde gegevens, zoals klantadressen, locaties en verkoopmedewerkertoewijzingen. De tweede toepassing importeert de factuurgeschiedenis van het bedrijf, inclusief alle factureringskosten voor klanten en de gerelateerde betalingsgegevens.

Beide toepassingen worden mogelijk gemaakt door pijplijnen in de gedeelde Azure Synapse-werkruimte. Elke toepassing heeft een toegewezen rekengroep om kostenboekhouding en beveiligingsgrenzen te vergemakkelijken. Omdat de toepassingen volledig kunnen worden geïmplementeerd met gedeelde resources, hoeft de factureringsgroep geen implementatie te maken voor deze gegevenstoepassingen.

Product voor factureringsgegevens

De factureringsanalisten maken een nieuw gegevensproduct met de naam Revenue by service die analyseert hoeveel omzet elke cloudservice genereert voor Relecloud. Dit product is afhankelijk van de gegevens in de Facturen verwerking. Het product maakt ook verbinding met de landingszone voor bewerkingen en leest de servicegebruiksgegevens. Net als bij de gegevenstoepassingen is het gegevensproduct ook afhankelijk van de gedeelde Azure Synapse-werkruimte.

Volgende stappen

Ga door naar het Lamna Healthcare-scenario voor veilige analyses op cloudschaal in Azure.

Zie de volgende artikelen voor meer informatie: