Landingszone voor gegevensbeheer
De landingszone voor gegevensbeheer is een beheerfunctie die centraal staat voor analyses op cloudschaal. Het is verantwoordelijk voor het beheer van uw analyseplatform.
Uw landingszone voor gegevensbeheer is een afzonderlijk abonnement met dezelfde standaardservices voor Azure-landingszones. Het maakt gegevensbeheer van uw gegevens mogelijk via crawlers, die verbinding maken met uw data lakes en polyglot-opslag in uw datalandingszones. Peering van virtuele netwerken verbindt uw landingszone voor gegevensbeheer met uw datalandingszones en connectiviteitsabonnement.
Deze architectuur is een uitgangspunt en u kunt deze aanpassen aan uw specifieke zakelijke en technische vereisten bij het plannen van de implementatie van uw landingszone voor gegevensbeheer.
Notitie
Polyglot-persistentie is een opslagterm die uw keuze beschrijft tussen verschillende technologieën voor gegevensopslag/gegevensopslag ter ondersteuning van uw verschillende gegevenstypen en hun opslagbehoeften. In wezen is polyglot persistence het concept dat een toepassing meer dan één kerndatabase of opslagtechnologie kan gebruiken.
Belangrijk
Uw landingszone voor gegevensbeheer moet worden geïmplementeerd als een afzonderlijk abonnement onder een beheergroep met de juiste governance. Vervolgens kunt u governance in uw organisatie beheren. De Azure-landingszoneversneller laat zien hoe u Azure-landingszones moet benaderen.
Gegevensbeheer
Cloud Scale Analytics stelt voor om Microsoft Purview te gebruiken. U kunt ook Microsoft Partner-oplossingen implementeren om specifieke functies voor gegevensbeheer te beheren. Belangrijke functies die u in uw architectuur kunt overwegen, zijn onder andere een globale gegevenscatalogus, hoofdgegevensbeheer, gegevensdeling en contracten, API-catalogus, gegevenskwaliteitsbeheer en een opslagplaats voor gegevensmodellering.
Microsoft Partner Data Governance-producten die implementatie in een abonnement nodig hebben, moeten worden geïmplementeerd in de Data Governance-resourcegroep binnen de landingszone voor gegevensbeheer.
Data catalogus
De gegevenscatalogus registreert en onderhoudt de gegevensgegevens op een gecentraliseerde locatie en maakt deze beschikbaar voor de organisatie. Het zorgt ervoor dat ondernemingen dubbele gegevensproducten voorkomen die worden veroorzaakt door redundante gegevensopname door verschillende projectteams. U wordt aangeraden een gegevenscatalogusservice te maken om de metagegevens te definiëren van de gegevensproducten die zijn opgeslagen in de landingszones voor gegevens.
Cloudanalyses zijn afhankelijk van Microsoft Purview om zakelijke gegevensbronnen te registreren, ze te classificeren, gegevenskwaliteit te garanderen en veilige, selfservicetoegang te bieden.
Microsoft Purview is een tenantservice en kan communiceren met elke gegevenslandingszone door een beheerd virtueel netwerk te maken dat is geïmplementeerd in de regio van uw gegevenslandingszones. U kunt Azure Managed Virtual Network Integration Runtimes (IR) implementeren binnen Microsoft Purview Managed Virtual Networks in elke beschikbare Microsoft Purview-regio. Van daaruit kan de ir van het beheerde virtuele netwerk privé-eindpunten gebruiken om veilig verbinding te maken met de ondersteunde gegevensbronnen en deze te scannen. Zie Beheerde virtuele netwerken gebruiken met uw Microsoft Purview-account voor meer informatie. Het maken van een beheerde virtuele netwerk-IR in Managed Virtual Network zorgt ervoor dat het proces voor gegevensintegratie geïsoleerd en veilig is.
Wanneer u Azure Databricks gebruikt, raden we u aan Azure Databricks Unity Catalog naast Microsoft Purview te gebruiken. Azure Databricks Unity Catalog biedt gecentraliseerd toegangsbeheer, controle, herkomst en mogelijkheden voor gegevensdetectie in Databricks-werkruimten. Zie aanbevolen werkwijzen voor het opzetten van Unity Catalog.
Notitie
Hoewel deze documentatie voornamelijk gericht is op het gebruik van Microsoft Purview voor governance, hebben ondernemingen mogelijk geïnvesteerd in andere producten, zoals Alation, Okera of Collibra. Deze oplossingen zijn gebaseerd op abonnementen en we raden u aan deze te implementeren in de landingszone voor gegevensbeheer. Houd er rekening mee dat er mogelijk een aangepaste integratie vereist is.
Mastergegevensbeheer
Beheer van hoofdgegevensbeheer bevindt zich in de landingszone voor gegevensbeheer. Hoofdgegevensbeheer in data mesh bevat specifieke overwegingen die u moet aanroepen voor data mesh.
Veel hoofdoplossingen voor gegevensbeheer zijn volledig geïntegreerd met Microsoft Entra ID. Met deze integratie kunt u uw gegevens beveiligen en verschillende weergaven bieden voor verschillende gebruikersgroepen.
Zie Master Data Management System voor meer informatie.
Gegevens delen en contracten
Analyse op cloudschaal maakt gebruik van Microsoft Entra-rechtenbeheer of Microsoft Purview-beleid om de toegang tot het delen van gegevens te beheren. Zelfs dit is mogelijk dat u nog steeds een opslagplaats voor delen en contracten nodig hebt. Deze opslagplaats is een organisatiefunctie en moet zich in uw landingszone voor gegevensbeheer bevinden.
Uw contracten moeten informatie bevatten over gegevensvalidatie, modellen en beveiligingsbeleid.
Zie Data contractsvoor meer informatie.
API-catalogus
Uw datatoepassingsteams maken verschillende API's voor hun gegevenstoepassingen. Deze API's kunnen moeilijk worden gedetecteerd in uw organisatie. Het plaatsen van een API-catalogus in uw landingszone voor gegevensbeheer kan dit probleem oplossen.
Een API-catalogus kan helpen bij het standaardiseren van uw documentatie en biedt een plek voor interne samenwerking op API's. Het kan ook het verbruik, de publicatie en het beheer van besturingselementen in uw organisatie stimuleren.
Beheer van gegevenskwaliteit
Ga verder met uw huidige oplossing.
Beheer de gegevenskwaliteit zo dicht mogelijk bij de gegevensbron om te voorkomen dat kwaliteitsproblemen zich verspreiden over uw analyse- en AI-systemen. Door metrische gegevens en validatie van kwaliteit te integreren in uw gegevensprocessen, kunt u het kwaliteitsbeheer afstemmen op de teams die het meest bekend zijn met de gegevens, zodat u de gegevensassets beter begrijpt en beter kunt verwerken.
Gegevensherkomst biedt ook betrouwbaarheid van gegevenskwaliteit en u moet deze opgeven voor alle gegevensproducten.
Zie Gegevenskwaliteit voor meer informatie over gegevenskwaliteitsbeheer.
Opslagplaats voor gegevensmodellering
U moet entiteitsrelatiemodellen vastleggen en opslaan op een centrale locatie binnen uw landingszone voor gegevensbeheer, zodat gegevensgebruikers op één plek conceptuele diagrammen kunnen vinden.
Veel klanten gebruiken ER Studio en OrbusInfinity- om hun gegevensproducten te modelleren voordat ze worden opgenomen.
Servicelaag
Uw organisatie kan besluiten om veel automatiseringsservices te maken om de mogelijkheden voor analyse op cloudschaal te verbeteren. Deze automatiseringsservices zorgen voor overeenstemming en onboardingoplossingen voor uw analysestatus.
Als u besluit om deze automatiseringsservices te bouwen, moet u een gebruikersinterface hebben die fungeert als zowel een gegevensmarktplaats als een bewerkingsconsole. Deze interface moet afhankelijk zijn van een onderliggend metagegevensarchief, zoals metagegevensstandaarden.
Uw data marketplace of operations-console roept een middelste laag van microservices aan om onboarding, registratie van metagegevens, inrichting van beveiliging, gegevenslevenscyclus en waarneembaarheid mogelijk te maken.
U kunt de -servicelaag-resourcegroep inrichten om uw metagegevensarchief te hosten.
Belangrijk
Geen van deze automatiseringsservices is een product en ze illustreren geen roadmapitem. Ze worden weergegeven om u te helpen bepalen welke items u mogelijk wilt automatiseren.
Service | Servicebereik |
---|---|
Inrichting van gegevenslandingszone | Met deze service maakt u een nieuwe landingszone voor gegevens. Het is onwaarschijnlijk dat het gebruik hoog is, maar is opgenomen voor de volledigheid van de end-to-end-onboardingoplossing. Zie De analyse op cloudschaal inrichten voor meer informatie |
Onboarding van gegevensproduct | Met deze service worden resourcegroepen gemaakt en gewijzigd die betrekking hebben op een onboarded tenant. Het bevat ook mogelijkheden voor het upgraden en downgraden van SKU's en het activeren en deactiveren van resourcegroepen voor elke onboarded tenant of service. Er wordt een nieuwe data landingszone DevOps gemaakt. Zie De analyse op cloudschaal inrichten voor meer informatie |
Gegevensagnostische opname | Deze microservice maakt nieuwe gegevensbronnen voor opname in uw gegevenslandingszones door te communiceren met een Azure Data Factory SQL Database-metastore in elke landingszone voor gegevens. Zie Hoe geautomatiseerde opnameframeworks ondersteuning bieden voor analyses op cloudschaal in Azure voor meer informatie |
Metagegevens | Deze service stelt metagegevens voor het platform beschikbaar en creëert ze. Zie Metagegevensstandaarden voor meer informatie |
Toegang tot inrichting | Met deze service worden toegangspakketten, toegangsbeleid en goedkeuringsprocessen voor assettoegang (handmatig of automatisch) gemaakt met behulp van SPN/UPN. Er kan ook een API beschikbaar worden gesteld om een lijst met abonnementsaanvragen (assets) te bieden die gebruikers in de afgelopen 90 dagen hebben ingediend. Zie Data Access Management voor meer informatie |
Levenscyclus van gegevens | Deze service is verantwoordelijk voor het onderhouden van de levenscyclus van uw gegevens op basis van metagegevens. Dit onderhoud kan bestaan uit het verplaatsen van gegevens naar koude opslag en het verwijderen van records die niet meer hoeven te worden bewaard. Zie Gegevenslevenscyclusbeheer voor meer informatie |
Onboarding van gegevensdomein | ALLEEN VAN TOEPASSING OP DATA MESH. Met deze service worden metagegevens vastgelegd die betrekking hebben op nieuwe domeinen en worden de nieuwe domeinen indien nodig onboardd. Het kan ook een domein of servicelijn maken, bijwerken, activeren en deactiveren die u in een microservice kunt inbouwen. Zie De analyse op cloudschaal inrichten voor meer informatie |
Azure Container Registry
Uw landingszone voor gegevensbeheer fungeert als host voor een Azure Container Registry. Met Azure Container Registry kunnen uw gegevensplatformbewerkingen standaardcontainers implementeren voor gebruik in data science-projecten die uw datatoepassingsteams gebruiken.