Best practices voor gegevens en AI-beheer

Artikel
11/26/2024

In dit artikel worden aanbevolen procedures voor gegevens en AI-governance beschreven, georganiseerd op basis van architectuurprincipes die in de volgende secties worden vermeld.

1. Gegevens en AI-beheer samenvoegen

Een gegevens- en AI-governanceproces tot stand brengen

Gegevens en AI-governance is het beheer van de beschikbaarheid, bruikbaarheid, integriteit en beveiliging van de gegevens en AI-assets van een organisatie. Door gegevens en AI-governance te versterken, kunnen organisaties de kwaliteit van de assets garanderen die essentieel zijn voor nauwkeurige analyses en besluitvorming, helpen nieuwe kansen te identificeren, klanttevredenheid te verbeteren en uiteindelijk de omzet te verhogen. Het helpt organisaties om te voldoen aan gegevens- en AI-privacyvoorschriften en beveiligingsmaatregelen te verbeteren, waardoor het risico op gegevensschendingen en boetes wordt verminderd. Effectieve gegevens en AI-governance elimineert ook redundantie en stroomlijnt gegevensbeheer, wat resulteert in kostenbesparingen en een verhoogde operationele efficiëntie.

Een organisatie kan kiezen welk governancemodel het beste bij hen past:

In het gecentraliseerde governancemodel zijn uw governancebeheerders eigenaars van de metastore en kunnen ze eigenaar worden van elk object en machtigingen verlenen en intrekken.
In een gedistribueerd governancemodel is de catalogus of een set catalogi het gegevensdomein. De eigenaar van die catalogus kan alle assets maken en bezitten en governance binnen dat domein beheren. De eigenaren van een bepaald domein kunnen onafhankelijk van de eigenaren van andere domeinen werken.

De oplossing voor gegevens- en AI-governance, Unity Catalog, is geïntegreerd in het Databricks Data Intelligence Platform. Het ondersteunt zowel governancemodellen als helpt bij het naadloos beheren van gestructureerde en ongestructureerde gegevens, ML-modellen, notebooks, dashboards en bestanden in elke cloud of platform. De best practices voor Unity Catalog helpen bij het implementeren van gegevens en AI-governance.

Metagegevens voor alle gegevens en AI-assets op één plaats beheren

De voordelen van het beheren van metagegevens voor alle assets op één plaats zijn vergelijkbaar met de voordelen van het onderhouden van één bron van waarheid voor al uw gegevens. Deze omvatten verminderde gegevensredundantie, verhoogde gegevensintegriteit en de verwijdering van misverstanden door verschillende definities of taxonomieën. Het is ook eenvoudiger om globale beleidsregels, standaarden en regels met één bron te implementeren.

Als best practice voert u het lakehouse uit in één account met een Unity Catalog. De Unity-catalogus kan gegevens en volumes (willekeurige bestanden) beheren, evenals AI-assets zoals functies en AI-modellen. De container op het hoogste niveau van objecten in de Unity Catalog is een metastore. Hiermee worden gegevensassets (zoals tabellen en weergaven) en de machtigingen voor toegang tot deze assets opgeslagen. Gebruik één metastore per cloudregio en open geen metastores in verschillende regio's om latentieproblemen te voorkomen.

De metastore biedt een naamruimte met drie niveaus voor het structureren van gegevens, volumes en AI-assets:

Databricks raadt aan catalogi te gebruiken om scheiding te bieden in de informatiearchitectuur van uw organisatie. Dit betekent vaak dat catalogi kunnen overeenkomen met het bereik van de softwareontwikkelingsomgeving, het team of de bedrijfseenheid.

Gegevens en AI-herkomst bijhouden om zichtbaarheid van de gegevens te stimuleren

Gegevensherkomst is een krachtig hulpmiddel waarmee data-leiders beter inzicht en begrip krijgen van de gegevens in hun organisaties. Gegevensherkomst beschrijft de transformatie en verfijning van gegevens van bron tot inzicht. Het omvat het vastleggen van alle relevante metagegevens en gebeurtenissen die zijn gekoppeld aan de gegevens gedurende de gehele levenscyclus, inclusief de bron van de gegevensset, welke andere gegevenssets zijn gebruikt om deze te maken, wie deze heeft gemaakt en wanneer, welke transformaties zijn uitgevoerd, welke andere gegevenssets deze gebruiken, en vele andere gebeurtenissen en kenmerken.

Bovendien kunt u, wanneer u een model traint in een tabel in Unity Catalog, de herkomst van het model bijhouden naar de upstream-gegevensset(s) waarop het is getraind en geëvalueerd.

Herkomst kan worden gebruikt voor veel gebruiksvoorbeelden met betrekking tot gegevens:

Gereedheid voor naleving en controle: gegevensherkomst helpt organisaties bij het traceren van de bron van tabellen en velden. Dit is belangrijk voor het voldoen aan de vereisten van veel nalevingsregels, zoals Algemene Verordening Gegevensbescherming (AVG), California Consumer Privacy Act (CCPA), Health Insurance Portability and Accountability Act (HIPAA), Basel Committee on Banking Supervision (BCBS) 239 en Sarbanes-Oxley Act (SOX).
Impactanalyse/wijzigingsbeheer: gegevens ondergaan meerdere transformaties van de bron naar de uiteindelijke tabel die gereed is voor het bedrijf. Inzicht in de mogelijke impact van gegevenswijzigingen op downstreamgebruikers wordt belangrijk vanuit het perspectief van risicobeheer. Deze impact kan eenvoudig worden bepaald met behulp van de gegevensherkomst die door de Unity-catalogus is vastgelegd.
Gegevenskwaliteitsgarantie: Inzicht in waar een gegevensset vandaan komt en welke transformaties zijn toegepast, biedt veel betere context voor gegevenswetenschappers en analisten, zodat ze betere en nauwkeurigere inzichten kunnen verkrijgen.
Foutopsporing en diagnostische gegevens: in het geval van een onverwacht resultaat helpt gegevensherkomst gegevensteams hoofdoorzaakanalyse uit te voeren door de fout terug te traceren naar de bron. Dit vermindert de probleemoplossingstijd aanzienlijk.

Unity Catalog legt runtime-gegevensherkomst vast voor query's die worden uitgevoerd op Azure Databricks en ook modelherkomst . Herkomst is ondersteund voor alle talen en wordt vastgelegd op kolomniveau. Herkomstgegevens omvatten notebooks, taken en dashboards met betrekking tot de query. Herkomst kan bijna in realtime worden gevisualiseerd in De Catalogusverkenner en worden geopend met behulp van de REST API voor gegevensherkomst van Databricks.

Consistente beschrijvingen toevoegen aan uw metagegevens

Beschrijvingen bieden essentiële context voor gegevens. Ze helpen gebruikers inzicht te hebben in het doel en de inhoud van gegevenstabellen en -kolommen. Dankzij deze duidelijkheid kunnen ze de gegevens die ze nodig hebben gemakkelijker detecteren, identificeren en filteren, wat essentieel is voor effectieve gegevensanalyse en besluitvorming. Beschrijvingen kunnen gegevensgevoeligheid en nalevingsinformatie bevatten. Dit helpt organisaties te voldoen aan wettelijke en wettelijke vereisten voor gegevensprivacy en -beveiliging. Beschrijvingen moeten ook informatie bevatten over de bron, nauwkeurigheid en relevantie van gegevens. Dit zorgt voor gegevensintegriteit en bevordert betere samenwerking tussen teams.

Twee hoofdfuncties in Unity Catalog ondersteunen het beschrijven van tabellen en kolommen. Met de Unity-catalogus kunt u

opmerkingen toevoegen aan tabellen en kolommen in de vorm van opmerkingen.

U kunt ook een door AI gegenereerde opmerking toevoegen voor elke tabel- of tabelkolom die wordt beheerd door Unity Catalog om het proces te versnellen. AI-modellen zijn echter niet altijd nauwkeurig en opmerkingen moeten worden gecontroleerd voordat ze worden opgeslagen. Databricks raadt de menselijke beoordeling van door AI gegenereerde opmerkingen ten zeerste aan om te controleren op onnauwkeurigheden.
tags toevoegen aan een beveiligbaar object in Unity Catalog. Tags zijn kenmerken met sleutels en optionele waarden die u kunt toepassen op verschillende beveiligbare objecten in Unity Catalog. Taggen is handig voor het ordenen en categoriseren van verschillende beveiligbare objecten in een metastore. Door tags te gebruiken, kunt u uw gegevensassets gemakkelijker doorzoeken en ontdekken.

Eenvoudige gegevensdetectie toestaan voor gegevensgebruikers

Met gemakkelijke gegevensontdekking kunnen gegevenswetenschappers, gegevensanalisten en data-ingenieurs snel relevante gegevens vinden en verwijzen, en de tijd tot waarde te versnellen.

Databricks Catalog Explorer biedt een gebruikersinterface voor het verkennen en beheren van gegevens, schema's (databases), tabellen en machtigingen, gegevenseigenaren, externe locaties en referenties. Daarnaast kunt u het tabblad Insights in Catalog Explorer gebruiken om de meest recente query's en gebruikers van elke tabel weer te geven die zijn geregistreerd in Unity Catalog.

AI-assets samen met gegevens beheren

De relatie tussen gegevensbeheer en kunstmatige intelligentie (AI) is essentieel geworden voor succes. Hoe organisaties gegevens beheren, beveiligen en gebruiken, hebben rechtstreeks invloed op de resultaten en overwegingen van AI-implementaties: u kunt geen AI zonder kwaliteitsgegevens hebben en u kunt geen kwaliteitsgegevens hebben zonder gegevensbeheer.

Door gegevens en AI samen te beheren, worden de AI-prestaties verbeterd door naadloze toegang tot hoogwaardige, actuele gegevens te garanderen, wat leidt tot verbeterde nauwkeurigheid en betere besluitvorming. Het opsplitsen van silo's verhoogt de efficiëntie door betere samenwerking en stroomlijning van werkstromen, wat resulteert in een verhoogde productiviteit en lagere kosten.

Verbeterde gegevensbeveiliging is een ander voordeel, omdat een geïntegreerde governancebenadering consistente procedures voor gegevensverwerking tot stand brengt, waardoor beveiligingsproblemen worden verminderd en de mogelijkheid van een organisatie wordt verbeterd om gevoelige informatie te beschermen. Naleving van regelgeving voor gegevensprivacy is eenvoudiger te onderhouden wanneer gegevens en AI-governance zijn geïntegreerd, omdat gegevensverwerking en AI-processen worden afgestemd op wettelijke vereisten.

Over het algemeen bevordert een geïntegreerde governancebenadering het vertrouwen tussen belanghebbenden en zorgt voor transparantie in AI-besluitvormingsprocessen door duidelijke beleidsregels en procedures voor zowel gegevens als AI tot stand te brengen.

In het Databricks Data Intelligence Platform is de Unity Catalog het centrale onderdeel voor het beheren van zowel gegevens als AI-assets:

Functie in Unity Catalog

In werkruimten met Unity Catalog kunnen gegevenswetenschappers functietabellen maken in Unity Catalog. Deze functietabellen zijn Delta-tabellen of DLT- beheerd door Unity Catalog.
Modellen in Unity Catalog

Modellen in Unity Catalog breiden de voordelen van Unity Catalog uit naar ML-modellen, waaronder gecentraliseerd toegangsbeheer, controle, herkomst en modeldetectie in werkruimten. Belangrijke functies van modellen in Unity Catalog zijn governance voor modellen, chronologische modelherkomst, modelversiebeheer en modelimplementatie via aliassen.

2. Gegevens en AI-beveiliging samenvoegen

Toegangsbeheer centraliseren voor alle gegevens en AI-assets

Het centraliseren van toegangsbeheer voor alle gegevensassets is belangrijk omdat het de beveiliging en governance van uw gegevens en AI-assets vereenvoudigt door een centrale plaats te bieden voor het beheren en controleren van toegang tot deze assets. Deze aanpak helpt bij het efficiënter beheren van toegang tot gegevens en AI-objecten, waardoor operationele vereisten rond scheiding van rechten worden afgedwongen. Dit is van cruciaal belang voor naleving van regelgeving en risicoontwijking.

Het Databricks Data Intelligence Platform biedt methoden voor gegevenstoegangsbeheer waarmee wordt beschreven welke groepen of personen toegang hebben tot welke gegevens. Dit zijn beleidsinstructies die uiterst gedetailleerd en specifiek kunnen zijn, tot aan de definitie van elke record waartoe elke persoon toegang heeft. Of ze kunnen zeer expressief en breed zijn, zoals alle financiële gebruikers kunnen alle financiële gegevens zien.

De Unity Catalog centraliseert toegangsbeheer voor alle ondersteunde beveiligbare objecten , zoals tabellen, bestanden, modellen en nog veel meer. Elk beveiligbaar object in Unity Catalog heeft een eigenaar. De eigenaar van een object heeft alle bevoegdheden voor het object, evenals de mogelijkheid om bevoegdheden voor het beveiligbare object aan andere principals te verlenen. Met de Unity-catalogus kunt u bevoegdheden beheren en toegangsbeheer configureren met behulp van SQL DDL-instructies.

De Unity Catalog maakt gebruik van rijfilters en kolommaskers voor fijnmazig toegangsbeheer . Met rijfilters kunt u een filter toepassen op een tabel, zodat volgende query's alleen rijen retourneren waarvoor het filterpredicaat waar oplevert. Met kolommaskers kunt u een maskeringsfunctie toepassen op een tabelkolom. De maskeringsfunctie wordt geëvalueerd tijdens de queryruntime, waarbij elke verwijzing naar de doelkolom wordt vervangen door de resultaten van de maskeringsfunctie.

Zie Beveiliging, naleving en privacy - Identiteit en toegang beheren met minimale bevoegdheden voor meer informatie.

Auditlogboekregistratie configureren

Auditlogboekregistratie is belangrijk omdat het een gedetailleerd account biedt van systeemactiviteiten (gebruikersacties, wijzigingen in instellingen, enzovoort) die van invloed kunnen zijn op de integriteit van het systeem. Hoewel standaardsysteemlogboeken zijn ontworpen om ontwikkelaars te helpen bij het oplossen van problemen, bieden auditlogboeken een historisch overzicht van activiteiten voor naleving en andere beleids afdwingingsdoeleinden. Het onderhouden van robuuste auditlogboeken kan helpen bij het identificeren en garanderen van paraatheid bij bedreigingen, schendingen, fraude en andere systeemproblemen.

Databricks biedt toegang tot auditlogboeken van activiteiten die door Databricks-gebruikers worden uitgevoerd, zodat uw organisatie gedetailleerde databricks-gebruikspatronen kan bewaken. Er zijn twee soorten logboeken, auditlogboeken op werkruimteniveau met gebeurtenissen op werkruimteniveau en auditlogboeken op accountniveau met gebeurtenissen op accountniveau.

U kunt ook uitgebreide auditlogboeken inschakelen, waarmee extra auditlogboeken worden vastgelegd wanneer een query of opdracht in uw werkruimte wordt uitgevoerd.

Gegevensplatformgebeurtenissen controleren

Auditlogboekregistratie is belangrijk omdat het een gedetailleerd account van systeemactiviteiten biedt. Het Data Intelligence Platform heeft auditlogboeken voor de toegang tot metagegevens (vandaar gegevenstoegang) en voor het delen van gegevens:

Unity Catalog legt een auditlogboek vast van acties die worden uitgevoerd op de metastore. Hierdoor hebben beheerders toegang tot gedetailleerde informatie over wie toegang heeft gekregen tot een bepaalde gegevensset en welke acties ze hebben uitgevoerd.
Voor veilig delen met Delta Sharing biedt Azure Databricks auditlogboeken voor het bewaken van Delta Sharing-gebeurtenissen, waaronder:
- Wanneer iemand een share of ontvanger maakt, wijzigt, bijwerken of verwijdert.
- Wanneer een ontvanger een activeringslink opent en de credential downloadt.
- Wanneer een ontvanger toegang krijgt tot shares of gegevens in gedeelde tabellen.
- Wanneer de gegevens van een ontvanger worden vernieuwd of verlopen.

3. Normen voor gegevenskwaliteit vaststellen

Het Databricks Data Intelligence Platform biedt robuust beheer van gegevenskwaliteit met ingebouwde kwaliteitscontroles, tests, bewaking en afdwinging om ervoor te zorgen dat nauwkeurige en nuttige gegevens beschikbaar zijn voor downstream BI-, analyse- en machine learning-workloads.

Implementatiedetails zijn te zien in betrouwbaarheid: gegevenskwaliteit beheren.

Duidelijke kwaliteitsstandaarden voor gegevens definiëren

Het definiëren van duidelijke en bruikbare gegevenskwaliteitsstandaarden is cruciaal, omdat het helpt ervoor te zorgen dat gegevens die worden gebruikt voor analyse, rapportage en besluitvorming betrouwbaar en betrouwbaar zijn. Het documenteren van deze standaarden helpt ervoor te zorgen dat ze worden gehandhaafd. De kwaliteitsnormen voor gegevens moeten worden gebaseerd op de specifieke behoeften van het bedrijf en moeten betrekking hebben op dimensies van gegevenskwaliteit, zoals nauwkeurigheid, volledigheid, consistentie, tijdigheid en betrouwbaarheid:

Nauwkeurigheid: zorg ervoor dat gegevens nauwkeurig waarden in de echte wereld weerspiegelen.
Volledigheid: alle benodigde gegevens moeten worden vastgelegd en er mogen geen kritieke gegevens ontbreken.
Consistentie: gegevens in alle systemen moeten consistent zijn en niet in strijd zijn met andere gegevens.
Tijdigheid: gegevens moeten tijdig worden bijgewerkt en beschikbaar zijn.
Betrouwbaarheid: gegevens moeten worden opgehaald en verwerkt op een manier die de betrouwbaarheid ervan garandeert.

Hulpprogramma's voor gegevenskwaliteit gebruiken voor profilering, opschoning, validatie en bewaking van gegevens

Maak gebruik van hulpprogramma's voor gegevenskwaliteit voor profilering, opschoning, validatie en bewaking van gegevens. Deze hulpprogramma's helpen bij het automatiseren van de processen voor het detecteren en corrigeren van problemen met de kwaliteit van gegevens, wat essentieel is voor het schalen van initiatieven voor gegevenskwaliteit in grote gegevenssets die typisch zijn in Data Lakes

Voor teams die DLT gebruiken, kunt u verwachtingen gebruiken om beperkingen voor gegevenskwaliteit te definiëren voor de inhoud van een gegevensset. Met de verwachtingen kunt u garanderen dat gegevens die binnenkomen in tabellen voldoen aan de vereisten voor gegevenskwaliteit en inzicht krijgen in de gegevenskwaliteit voor elke pijplijnupdate.

Gestandaardiseerde gegevensindelingen en -definities implementeren en afdwingen

Gestandaardiseerde gegevensindelingen en definities helpen bij het realiseren van een consistente weergave van gegevens in alle systemen om de integratie en analyse van gegevens te vergemakkelijken, kosten te verlagen en besluitvorming te verbeteren door communicatie en samenwerking tussen teams en afdelingen te verbeteren. Het helpt ook een structuur te bieden voor het maken en onderhouden van gegevenskwaliteit.

Een standaardgegevenswoordenlijst ontwikkelen en afdwingen die definities, indelingen en acceptabele waarden bevat voor alle gegevenselementen die in de hele organisatie worden gebruikt.

Gebruik consistente naamconventies, datumnotaties en maateenheden voor alle databases en toepassingen om discrepanties en verwarring te voorkomen.

Delen via