Delen via


Gegevenscontracten

Verantwoordelijkheden worden verdeeld tussen domeinen in een federatieve architectuur, waardoor het lastig kan zijn om afhankelijkheden te controleren en inzicht te krijgen in gegevensgebruik. Gegevenscontracten kunnen u helpen inzicht te krijgen in het gebruik van gegevens, omdat ze informatie bieden over wie eigenaar is van elk gegevensproduct. Met gegevenscontracten kunt u standaarden instellen en uw gegevenspijplijnen met vertrouwen beheren. Ze zijn essentieel voor robuust gegevensbeheer en bieden informatie over:

  • Welke gegevensproducten worden gebruikt.
  • Welke gebruikers welke gegevensproducten gebruiken.
  • Wat is het doel van gebruikers om specifieke gegevensproducten te gebruiken.

Gegevensproductdistributie en -gebruik hebben twee dimensies: technische problemen en zakelijke problemen. Technische problemen zijn onder andere de verwerking van gegevenspijplijnen en de verwachtingen voor wederzijdse gegevensstabiliteit. Zakelijke problemen omvatten overeenkomsten voor het delen van doelen voor gegevensdeling, die het gebruik, de privacy en doelstellingen definiëren, inclusief eventuele beperkingen.

De twee dimensies hebben betrekking op verschillende rollen. Over het algemeen moet u vertrouwen op toepassingseigenaren of gegevenstechnici voor technische problemen en producteigenaren of bedrijfsvertegenwoordigers voor zakelijke problemen.

Principes voor gegevenscontracten

Gegevenscontracten zijn vergelijkbaar met servicecontracten of contracten voor gegevenslevering.

In een grotere of gedistribueerde architectuur kan het lastig zijn om wijzigingen te overzien. U kunt uw toezicht vereenvoudigen door versiebeheer te implementeren en compatibiliteit te beheren wanneer u een gegevensproduct hebt dat populair en veel wordt gebruikt.

Als toepassingen zijn gekoppeld, geeft dit een hoge mate van onderlinge afhankelijkheid aan tussen de gekoppelde toepassingen. Toepassingen die gegevens van andere toepassingen openen of gebruiken, lijden altijd wanneer ze zijn gekoppeld. Elke wijziging in de gegevensstructuur is bijvoorbeeld waarschijnlijk rechtstreeks van invloed op andere toepassingen die toegang hebben tot of die gegevens gebruiken. In situaties waarin u veel toepassingen aan elkaar hebt gekoppeld, is het gebruikelijk om een trapsgewijs effect te ervaren waarbij een kleine wijziging in één toepassing van invloed is op veel andere toepassingen. Vanwege de verhoogde kans op onbedoelde effecten na zelfs kleine wijzigingen, vermijden veel architecten en softwaretechnici gekoppelde architecturen.

Een gegevenscontract garandeert interfacecompatibiliteit en bevat servicevoorwaarden en een SLA (Service Level Agreement). Servicevoorwaarden beschrijven hoe gegevens kunnen worden gebruikt, zoals het beperken van het gebruik ervan tot alleen ontwikkeling, testen of productie. SLA's beschrijven de vereiste kwaliteit van de levering en interface van gegevens. Kwaliteitsdetails die u in een SLA kunt opgeven, zijn onder andere:

  • Bedrijfstijd
  • Foutpercentages
  • Beschikbaarheid
  • Afschaffing
  • Een roadmap
  • Versienummers

U kunt de metagegevens die deze details vastleggen onder broncodebeheer plaatsen, waardoor validaties en implementaties automatisch kunnen worden geactiveerd. Zie Broncodebeheer in Azure Data Factory voor meer informatie over broncodebeheer.

Gegevenscontracten bieden inzicht in koppeling en afhankelijkheden tussen domeinen en toepassingen. Met een contract kunnen ook contracten worden getest, waardoor alle wijzigingen in de toepassing en interface worden gevalideerd op basis van de gegevensvereisten van uw consumenten. U kunt zien wanneer uw gegevensstromen kwetsbaar worden voor wijzigingen in de upstream-gegevensbron door schemadrift te detecteren. Zie Schemadrift in toewijzingsgegevensstroom voor meer informatie.

Gegevenscontracten maken vaak deel uit van frameworks voor metagegevensgestuurde opname. U kunt gegevenscontracten opslaan in metagegevensrecords in een centraal beheerde metastore. Vanaf die centrale locatie spelen uw gegevenscontracten een belangrijke rol in meerdere gebieden van gegevensopname, waaronder:

  • Pijplijnuitvoering
  • Gegevensproduct maken
  • Validatie van gegevenstype
  • Schema's
  • Interoperabiliteitsstandaarden
  • Protocolversies
  • Standaardregels voor ontbrekende gegevens

Bij gegevenscontracten zijn grote hoeveelheden technische metagegevens betrokken. Als u uw gegevenspijplijnen en gegevensproducten wilt documenteren, moet u een duidelijke beschrijving hebben van uw gegevensbronnen, alle transformaties die uw gegevens hebben ondergaan en hoe u de gegevens uiteindelijk levert.

Diagram met gegevenscontracten.

In een gedistribueerde architectuur distribueert u een framework voor gegevenspijplijnen over verschillende domeinen en de domeinen voldoen aan een gemeenschappelijke manier van werken. Aangezien de domeinen zelf gegevens verwerken, blijven de controle en verantwoordelijkheid behouden, terwijl het framework en de metagegevens onder centraal beheer blijven.

Wanneer u een federatieve methode implementeert, begint u klein. Begin met basisbeginselen, zoals metagegevensopslag voor schemavalidatie, ondernemings-id's en verwijzingen naar andere gegevenssets in uw gedeelde metagegevensopslagplaats. Voeg ondersteuning voor gegevensherkomst toe om gegevensverplaatsing te visualiseren. Bootstrap uw processen en implementeer besturingselementen voor validatie van technische gegevenskwaliteit.

Al uw besturingselementen moeten deel uitmaken van uw continue integratieprocedures. Leg alle runtime-informatie vast, inclusief metrische gegevens en logboekregistratie, en maak deze informatie onderdeel van uw metagegevensbasis voor het verkrijgen van inzichten in de stabiliteit van gegevenspijplijnen. Deze instelling zorgt ervoor dat u een feedbacklus hebt tussen uw domeinen en uw centrale management cockpit.

Wanneer u alle gegevensverplaatsing stabiliseren, legt u vast welke gegevenskenmerken (zoals tabellen en kolommen) worden gebruikt door welke gegevensgebruikers deze gegevens gebruiken en deze informatie gebruiken om door te gaan met schalen. U kunt deze informatie opnemen in uw centraal beheerde metastore. Met gegevensgebruiksgegevens kunt u belangrijke wijzigingen detecteren en hun gevolgen voor uw gegevensproducenten en consumenten identificeren. Als een gegevensproductgegevensset geen consumenten heeft, kunt u toestaan dat deze verstorende wijzigingen ondervindt. Gebruik broncodebeheer (zoals Git) om een handshakeproces tussen providers en consumenten van uw gegevens toe te staan.

Overeenkomsten voor het delen van gegevens

Overeenkomsten voor het delen van gegevens zijn een uitbreiding van gegevenscontracten. De overeenkomsten bevatten een overzicht van het gebruik, de privacy en het doel van gegevens, met inbegrip van eventuele beperkingen. Overeenkomsten voor het delen van gegevens zijn interface-onafhankelijk en bieden inzicht in welke gegevens voor een bepaald doel worden gebruikt. Ze fungeren ook als invoer voor besturingselementen voor gegevensbeveiliging. U kunt een overeenkomst voor het delen van gegevens gebruiken om aan te geven welke filters of beveiligingsmaatregelen op uw gegevens moeten worden toegepast.

Overeenkomsten voor gegevensdeling helpen ook bij het voorkomen van miscommunicatie over gegevensgebruik. Domeineigenaren moeten problemen met het delen van gegevens en het gebruik van gegevens bespreken voordat gegevens worden gedeeld. Een algemeen begrip is essentieel voor uw vermogen om gegevens en het gebruik ervan te reguleren en ervoor te zorgen dat u waarde kunt leveren aan uw organisatie. Nadat alle domeineigenaren een samenwerkingskennis hebben bereikt, moet u ervoor zorgen dat ze deze documenteren in een overeenkomst voor het delen van gegevens. In deze overeenkomst kunt u ook de volgende zaken aanpakken:

  • Kwaliteit van functionele gegevens
  • Historisatie
  • Beheer van gegevenslevenscyclus
  • Verdere distributie van gegevens

Pas classificaties en voorwaarden zoals vertrouwelijkheidslabels of filtervoorwaarden toe om uw gegevens te beveiligen.

In het diagram van de vorige sectie ziet u bepaalde elementen met het label product sidecar van het gegevensproduct. Een sidecar voor gegevensproduct is een onderdeel of laag voor het injecteren van beleidsuitvoering, zoals besturingselementen voor gegevenstoegang of uitvoermethoden voor gegevensverbruik. Het is een beveiligingsabstractie die gebruikmaakt van gegevenscontracten voor het afdwingen van beveiliging voor uw domeingegevens. U kunt een gegevensproduct sidecar maken vanuit uw gegevenscontractopslagplaats als een toegangsbeheerlijst (ACL) of serverloze weergave, of u kunt er een maken met behulp van een gedupliceerde gegevensset die u selecteert en filtert op een specifieke consument. Hoe dan ook, het doel is om beveiligingsweergaven af te leiden van uw gegevenscontracten op een volledig geautomatiseerde manier.

Koppel de kenmerken van het gegevenscontract en uw documentatie. Zorg ervoor dat u semantische context en een relatie met uw woordenlijst biedt, zodat uw consumenten kunnen begrijpen hoe bedrijfsvereisten worden omgezet in een daadwerkelijke implementatie. Als een relatie met zakelijke termen belangrijk is voor uw organisatie, kunt u overwegen beleidsregels te implementeren, zoals het toestaan van gegevenscontracten tot stand te brengen nadat alle kenmerken van het gegevensproduct zijn gekoppeld aan entiteiten voor zakelijke termen. U kunt dit type beleid ook toepassen op contextuele wijzigingen, zoals het aanpassen van relaties of definities.

Gegevenscontracten gebruiken

Begin langzaam wanneer u begint met het gebruik van gegevenscontracten. Introduceer niet te veel wijzigingen tegelijk; voor gegevenscontracten is een culturele verschuiving vereist en uw gebruikers hebben tijd nodig om vertrouwd te raken met hen en inzicht te hebben in het belang van het eigendom van gegevens. U moet ook de sweet spot vinden tussen te weinig en te veel metagegevenskenmerken in uw gegevenscontracten.

De volgende stappen geven een overzicht van het proces voor het implementeren van gegevenscontracten voor uw organisatie:

  1. Zorg ervoor dat uw technische gegevenspijplijnen stabiel zijn. Gebruiksvoorbeelden kunnen geen productie bereiken als de pijplijnen die ze door reizen, onverwachte onderbrekingen ondervinden.
  2. Zet eenvoudige en pragmatische processen op het gebied van het gebruik van gedeelde overeenkomsten. U kunt beginnen met het ontwerpen van een eenvoudig formulier of sjabloon in Microsoft Forms. Schrijf in duidelijke, beknopte taal die lezers gemakkelijk kunnen begrijpen. De focus van deze eerste fase is een culturele verschuiving en het verzamelen van vereisten. Zorg ervoor dat u dingen niet overcompliceert; accepteer handmatige processen, beperk uw eerste metagegevensvereisten en itereer totdat deze vereisten stabiel zijn.
  3. Nadat u uw eerste processen stevig hebt geïmplementeerd, kunt u beginnen met het vervangen van uw handmatige formulieren door een webtoepassing, database en/of berichtenwachtrij. Uw centrale data governanceteam moet tijdens deze fase nog steeds verantwoordelijk zijn voor toezicht. Op dit moment is de granulariteit van gegevenstoegang doorgaans grofmazig, gericht op mappen of bestanden. Gebruik WAAR mogelijk REST API's om uw beleid voor gegevenstoegang of ACL's automatisch in te richten.
  4. Plaats gegevenseigenaren of gegevensstewards voor een sterke werkstroom voor goedkeuringsbeheer. Uw centrale rol voor gegevensbeheer moet nu vanuit een achtergrondrol toezien op goedkeuring en alle gegevenscontracten regelmatig controleren. Op dit moment moet u een gegevenscatalogus hebben, zoals Microsoft Purview operationeel, waarin al uw gebruiksklare gegevensproducten worden weergegeven. Verbeter de mogelijkheid voor het afdwingen van gegevens en beveiliging door fijnmazige selecties en filters toe te staan en overweeg technieken zoals dynamische gegevensmaskering te gebruiken om te voorkomen dat uw gegevens worden gedupliceerd.
  5. In de laatste fase van de implementatie van uw datacontract moet alles selfservice en volledig geautomatiseerd zijn. Geautomatiseerde machine learning moet gegevensgoedkeuringen voorspellen. Beveiligde weergaven worden bijvoorbeeld automatisch geïmplementeerd na goedkeuring.

Gegevenscontracten zijn een relatief nieuwe maar belangrijke aanvulling op de data mesh-architectuur, die transparantie biedt voor gegevensgebruik en afhankelijkheden. Richt u op technische stabiliteit en standaardisatie terwijl u voor het eerst gegevenscontracten gaat gebruiken en vervolgens een geleerd proces gebruiken tijdens het herhalen. Bouw en automatiseer langzaam uw gegevensbeheer, zodat u de overhead van uw organisatie niet verhoogt.

Als onderdeel van de documentatie van uw gegevenscontract hebt u ook servicevoorwaarden en serviceovereenkomsten (SLA's) nodig. Gebruik SLA's om de kwaliteitsvereisten voor de levering en interfaces van uw gegevens aan te geven, waaronder uptime, foutpercentages en beschikbaarheid. SLA's kunnen ook vereisten voor afschaffing, roadmap en versienummer bevatten die u moet definiëren.

Volgende stappen