Bewerken

Delen via


Azure Synapse Analytics voor landingszones

Azure Synapse Analytics
Azure Private Link
Azure Data Lake Storage
Azure Key Vault

Dit artikel bevat een architectuurbenadering voor het voorbereiden van Azure-landingszoneabonnementen voor een schaalbare, verbeterde beveiligingsimplementatie van Azure Synapse Analytics. Azure Synapse, een zakelijke analyseservice, combineert datawarehousing, big data-verwerking, gegevensintegratie en beheer.

In het artikel wordt ervan uitgegaan dat u al de platformbasis hebt geïmplementeerd die nodig is om een landingszone effectief te bouwen en operationeel te maken.

Apache®, Spark en het vlamlogo zijn geregistreerde handelsmerken of handelsmerken van de Apache Software Foundation in de Verenigde Staten en/of andere landen. Er wordt geen goedkeuring door De Apache Software Foundation geïmpliceerd door het gebruik van deze markeringen.

Architectuur

Diagram met een Azure Synapse Analytics-referentiearchitectuur.

Een Visio-bestand van deze architectuur downloaden.

Gegevensstroom

  • Het kernonderdeel van deze architectuur is Azure Synapse, een geïntegreerde service die een scala aan functies biedt, van gegevensopname en gegevensverwerking tot het leveren en analyseren van gegevens. Azure Synapse in een beheerd virtueel netwerk biedt netwerkisolatie voor de werkruimte. Door gegevensexfiltratiebeveiliging in te schakelen, kunt u uitgaande connectiviteit beperken tot alleen goedgekeurde doelen.
  • Azure Synapse-resources, de Azure Integration Runtime en Spark-pools die zich in het beheerde virtuele netwerk bevinden, kunnen verbinding maken met Azure Data Lake Storage, Azure Key Vault en andere Azure-gegevensarchieven met verhoogde beveiliging met behulp van beheerde privé-eindpunten. Azure Synapse SQL-pools die buiten het beheerde virtuele netwerk worden gehost, kunnen verbinding maken met Azure-services via een privé-eindpunt in het virtuele bedrijfsnetwerk.
  • Beheerders kunnen privéconnectiviteit afdwingen voor de Azure Synapse-werkruimte, Data Lake Storage, Key Vault, Log Analytics en andere gegevensarchieven via Azure-beleid dat wordt toegepast op gegevenslandingszones op beheergroepsniveau. Ze kunnen ook gegevensexfiltratiebeveiliging inschakelen om verbeterde beveiliging te bieden voor uitgaand verkeer.
  • Gebruikers hebben toegang tot Synapse Studio met behulp van een webbrowser vanuit een beperkt on-premises netwerk via Azure Synapse Private Link Hubs. Private Link Hubs worden gebruikt om Synapse Studio te laden via privékoppelingen met verbeterde beveiliging. Eén Azure Synapse Private Link Hubs-resource wordt geïmplementeerd in een connectiviteitsabonnement met een privé-eindpunt in het virtuele hubnetwerk. Het virtuele hubnetwerk is verbonden met het on-premises netwerk via Azure ExpressRoute. De Private Link Hubs-resource kan worden gebruikt om privé verbinding te maken met alle Azure Synapse-werkruimten via Synapse Studio.
  • Data engineers gebruiken de Azure Synapse-pijplijnen Copy-activiteit, uitgevoerd in een zelf-hostende Integration Runtime, om gegevens op te nemen tussen een gegevensarchief dat wordt gehost in een on-premises omgeving en cloudgegevensarchieven, zoals Data Lake Storage en SQL-pools. De on-premises omgeving is via ExpressRoute verbonden met het virtuele hubnetwerk in Azure.
  • Data engineers gebruiken de Azure Synapse-Gegevensstroom-activiteit en Spark-pools om gegevens te transformeren die worden gehost in cloudgegevensarchieven die zijn verbonden met het door Azure Synapse beheerde virtuele netwerk via beheerde privé-eindpunten. Voor gegevens in de on-premises omgeving is voor transformatie met Spark-pools connectiviteit vereist via een aangepaste Private Link-service. De aangepaste Private Link-service maakt gebruik van NAT-VM's (Network Address Translation) om verbinding te maken met het on-premises gegevensarchief. Voor informatie over het instellen van de Private Link-service voor toegang tot on-premises gegevensarchieven vanuit een beheerd virtueel netwerk, raadpleegt u Toegang krijgen tot on-premises SQL Server vanuit het beheerde VNet van Data Factory met behulp van een privé-eindpunt.
  • Als gegevensexfiltratiebeveiliging is ingeschakeld in Azure Synapse, wordt logboekregistratie van Spark-toepassingen naar de Log Analytics-werkruimte gerouteerd via een Azure Monitor Private Link Scope-resource die is verbonden met het beheerde virtuele netwerk van Azure Synapse via een beheerd privé-eindpunt. Zoals in het diagram wordt weergegeven, wordt één Azure Monitor Private Link Scope-resource gehost in een connectiviteitsabonnement met een privé-eindpunt in het virtuele hubnetwerk. Alle Log Analytics-werkruimten en Application Insights-resources kunnen privé worden bereikt via azure Monitor Private Link Scope.

Onderdelen

  • Azure Synapse Analytics is een service voor bedrijfsanalyse waarmee u sneller inzicht krijgt in datawarehouses en big data-systemen.
  • Azure Synapse Managed Virtual Network biedt netwerkisolatie voor Azure Synapse-werkruimten vanuit andere werkruimten.
  • Beheerde privé-eindpunten van Azure Synapse zijn privé-eindpunten die worden gemaakt in een beheerd virtueel netwerk dat is gekoppeld aan een Azure Synapse-werkruimte. Beheerde privé-eindpunten zorgen voor private link-connectiviteit met Azure-resources buiten het beheerde virtuele netwerk.
  • Azure Synapse-werkruimte met gegevensexfiltratiebeveiliging voorkomt exfiltratie van gevoelige gegevens naar locaties die buiten het bereik van een organisatie vallen.
  • Azure Private Link Hubs zijn Azure-resources die fungeren als connectors tussen uw beveiligde netwerk en de Synapse Studio-webervaring.
  • Integration Runtime is de rekeninfrastructuur die azure Synapse-pijplijnen gebruiken om mogelijkheden voor gegevensintegratie in verschillende netwerkomgevingen te bieden. Voer de Gegevensstroom-activiteit uit in de beheerde Azure Compute Integration Runtime of de Copy-activiteit in verschillende netwerken met behulp van een zelf-hostende Compute Integration Runtime.
  • Azure Private Link biedt privétoegang tot services die worden gehost in Azure. De Azure Private Link-service is de verwijzing naar uw eigen service die wordt mogelijk gemaakt door Private Link. U kunt uw service inschakelen die wordt uitgevoerd achter Azure Standard Load Balancer voor Private Link-toegang. Vervolgens kunt u de Private Link-service uitbreiden naar het beheerde virtuele netwerk van Azure Synapse via een beheerd privé-eindpunt.
  • Apache Spark in Azure Synapse is een van de verschillende Microsoft-implementaties van Apache Spark in de cloud. Met Azure Synapse kunt u eenvoudig Spark-mogelijkheden maken en configureren in Azure.
  • Data Lake Storage maakt gebruik van Azure Storage als de basis voor het bouwen van zakelijke data lakes in Azure.
  • Met Key Vault kunt u geheimen, sleutels en certificaten opslaan met verbeterde beveiliging.
  • Azure-landingszones zijn de uitvoer van een Azure-omgeving met meerdere abonnementen die rekening houdt met schaal, beveiligingsbeheer, netwerken en identiteit. Een landingszone maakt migratie, modernisering en innovatie op ondernemingsniveau in Azure mogelijk.

Scenariodetails

Dit artikel bevat een benadering voor het voorbereiden van Azure-landingszoneabonnementen voor een schaalbare, verbeterde beveiligingsimplementatie van Azure Synapse. De oplossing voldoet aan Cloud Adoption Framework voor best practices van Azure en richt zich op de ontwerprichtlijnen voor landingszones op ondernemingsniveau.

Veel grote organisaties met gedecentraliseerde, autonome bedrijfseenheden willen analyses en data science-oplossingen op schaal gebruiken. Het is essentieel dat ze de juiste basis bouwen. Azure Synapse en Data Lake Storage zijn de centrale onderdelen voor het implementeren van analyses op cloudschaal en een data mesh-architectuur.

Dit artikel bevat aanbevelingen voor het implementeren van Azure Synapse in beheergroepen, abonnementstopologie, netwerken, identiteit en beveiliging.

Met deze oplossing kunt u het volgende bereiken:

  • Een goed beheerd, uitgebreid beveiligingsanalyseplatform dat wordt geschaald op basis van uw behoeften in meerdere landingszones voor gegevens.
  • Verminderde operationele overhead voor datatoepassingsteams. Ze kunnen zich richten op data engineering en analyses en azure Synapse-platformbeheer laten over aan het operations-team van de gegevenslandingszone.
  • Gecentraliseerde handhaving van de naleving van de organisatie in landingszones voor gegevens.

Potentiële gebruikscases

Deze architectuur is handig voor organisaties die het volgende vereisen:

  • Een volledig geïntegreerd en operationeel beheer- en gegevensvlak voor Azure Synapse-workloads, direct vanaf het begin.
  • Een verbeterde beveiligings implementatie van Azure Synapse, met een focus op gegevensbeveiliging en privacy.

Deze architectuur kan fungeren als uitgangspunt voor grootschalige implementaties van Azure Synapse-workloads in abonnementen voor gegevenslandingszones.

Abonnementstopologie

Organisaties die grootschalige gegevens- en analyseplatforms bouwen, zoeken naar manieren om hun inspanningen consistent en efficiënt in de loop van de tijd te schalen.

  • Door abonnementen te gebruiken als een schaaleenheid voor landingszones voor gegevens, kunnen organisaties beperkingen op abonnementsniveau overwinnen, zorgen voor de juiste isolatie en toegangsbeheer en flexibele toekomstige groei voor de footprint van het gegevensplatform krijgen. Binnen een gegevenslandingszone kunt u Azure Synapse en andere gegevensassets groeperen voor specifieke analysegebruiksscenario's binnen een resourcegroep.
  • De beheergroep en het instellen van abonnementen zijn de verantwoordelijkheid van de eigenaar van het landingszoneplatform die de vereiste toegang biedt tot gegevensplatformbeheerders om Azure Synapse en andere services in te richten.
  • Alle nalevingsbeleidsregels voor gegevens in de hele organisatie worden toegepast op beheergroepsniveau om naleving af te dwingen in de landingszones voor gegevens.

Netwerktopologie

Zie virtual WAN-netwerktopologie (hub en spoke) voor aanbevelingen voor landingszones die gebruikmaken van virtual WAN-netwerktopologie. Deze aanbevelingen zijn afgestemd op best practices voor Cloud Adoption Framework .

Hieronder volgen enkele aanbevelingen voor azure Synapse-netwerktopologie:

  • Implementeer netwerkisolatie voor Azure Synapse-resources via beheerd virtueel netwerk. Implementeer gegevensexfiltratiebeveiliging door uitgaande toegang tot alleen goedgekeurde doelen te beperken.

  • Privéconnectiviteit configureren voor:

    • Azure-services zoals Data Lake Storage, Key Vault en Azure SQL, via beheerde privé-eindpunten.
    • On-premises gegevensarchieven en toepassingen via ExpressRoute, via een zelf-hostende Integration Runtime. Gebruik de aangepaste Private Link-service om Spark-resources te verbinden met on-premises gegevensarchieven als u geen zelf-hostende Integration Runtime kunt gebruiken.
    • Synapse Studio, via private link-hubs die zijn geïmplementeerd in een connectiviteitsabonnement.
    • De Log Analytics-werkruimte, via Azure Monitor Private Link Scope, geïmplementeerd in een connectiviteitsabonnement.

Identiteits- en toegangsbeheer

Ondernemingen gebruiken doorgaans een benadering met minimale bevoegdheden voor operationele toegang. Ze gebruiken Microsoft Entra ID, op rollen gebaseerd toegangsbeheer (RBAC) van Azure en aangepaste roldefinities voor toegangsbeheer.

  • Implementeer verfijnde toegangsbeheer in Azure Synapse met behulp van Azure-rollen, Azure Synapse-rollen, SQL-rollen en Git-machtigingen. Zie dit overzicht voor meer informatie over toegangsbeheer voor Azure Synapse-werkruimten.
  • Azure Synapse-rollen bieden sets machtigingen die u op verschillende bereiken kunt toepassen. Deze granulariteit maakt het eenvoudig om de juiste toegang te verlenen aan beheerders, ontwikkelaars, beveiligingspersoneel en operators tot rekenresources en gegevens.
  • U kunt toegangsbeheer vereenvoudigen met behulp van beveiligingsgroepen die zijn afgestemd op taakrollen. Als u de toegang wilt beheren, hoeft u alleen gebruikers toe te voegen aan en te verwijderen uit de juiste beveiligingsgroepen.
  • U kunt beveiliging bieden voor communicatie tussen Azure Synapse en andere Azure-services, zoals Data Lake Storage en Key Vault, met behulp van door de gebruiker toegewezen beheerde identiteiten. Als u dit doet, hoeft u geen referenties te beheren. Beheerde identiteiten bieden een identiteit die toepassingen kunnen gebruiken wanneer ze verbinding maken met resources die ondersteuning bieden voor Microsoft Entra-verificatie.

Toepassingsautomatisering en DevOps

  • Continue integratie en levering voor een Azure Synapse-werkruimte wordt bereikt via Git-integratie en promotie van alle entiteiten van de ene omgeving (ontwikkeling, test, productie) naar een andere omgeving.
  • Implementeer automatisering met Bicep-/Azure Resource Manager-sjablonen om werkruimteresources (pools en werkruimten) te maken of bij te werken. Migreer artefacten zoals SQL-scripts en notebooks, Spark-taakdefinities, pijplijnen, gegevenssets en andere artefacten met behulp van Synapse Workspace Deployment Tools in Azure DevOps of op GitHub, zoals beschreven in Continue integratie en levering voor een Azure Synapse Analytics-werkruimte.

Overwegingen

Met deze overwegingen worden de pijlers van het Azure Well-Architected Framework geïmplementeerd, een set richtlijnen die u kunt gebruiken om de kwaliteit van een workload te verbeteren. Zie Microsoft Azure Well-Architected Framework voor meer informatie.

Betrouwbaarheid

Betrouwbaarheid zorgt ervoor dat uw toepassing kan voldoen aan de toezeggingen die u aan uw klanten hebt gedaan. Zie Overzicht van de betrouwbaarheidspijler voor meer informatie.

Beveiliging

Beveiliging biedt garanties tegen opzettelijke aanvallen en misbruik van uw waardevolle gegevens en systemen. Zie Overzicht van de beveiligingspijler voor meer informatie.

Kostenoptimalisatie

Kostenoptimalisatie gaat over het verminderen van onnodige uitgaven en het verbeteren van operationele efficiëntie. Zie Overzicht van de pijler kostenoptimalisatie voor meer informatie.

  • De analysebronnen worden gemeten in DWU's (Data Warehouse Units), waarmee CPU, geheugen en IO worden bijgehouden. We raden u aan om te beginnen met kleine DWU's en prestaties te meten voor resource-intensieve bewerkingen, zoals het laden van zware gegevens of transformaties. Als u dit doet, kunt u bepalen hoeveel eenheden u nodig hebt om uw workload te optimaliseren.
  • Bespaar geld met prijzen voor betalen per gebruik met behulp van vooraf aangeschafte Azure Synapse Commit Units (SKU's).
  • Als u prijsopties wilt verkennen en de kosten voor het implementeren van Azure Synapse wilt schatten, raadpleegt u de prijzen van Azure Synapse Analytics.
  • Deze prijsraming bevat de kosten voor het implementeren van services met behulp van de automatiseringsstappen die in de volgende sectie worden beschreven.

Dit scenario implementeren

Vereisten: U moet een Azure-account hebben. Als u geen abonnement op Azure hebt, maakt u een gratis account voordat u begint.

Alle code voor dit scenario is beschikbaar in de Synapse Enterprise Codebase-opslagplaats op GitHub.

De geautomatiseerde implementatie maakt gebruik van Bicep-sjablonen om de volgende onderdelen te implementeren:

  • Een resourcegroep
  • Een virtueel netwerk en subnetten
  • Opslaglagen (brons, zilver en goud) met privé-eindpunten
  • Een Azure Synapse-werkruimte met een beheerd virtueel netwerk
  • Private Link-service en -eindpunten
  • Load balancer en NAT-VM's
  • Een zelf-hostende Integration Runtime-resource

Een PowerShell-script voor het organiseren van de implementatie is beschikbaar in de opslagplaats. U kunt het PowerShell-script uitvoeren of het pipeline.yml-bestand gebruiken om het te implementeren als een pijplijn in Azure DevOps.

Zie het leesmij-bestand voor meer informatie over de Bicep-sjablonen, implementatiestappen en veronderstellingen.

Medewerkers

Dit artikel wordt onderhouden door Microsoft. De tekst is oorspronkelijk geschreven door de volgende Inzenders.

Belangrijkste auteurs:

Andere inzender:

Als u niet-openbare LinkedIn-profielen wilt zien, meldt u zich aan bij LinkedIn.

Volgende stappen

Zie de volgende bronnen voor meer informatie over de services die in dit artikel worden beschreven: