AVG en CCPA-naleving van Delta Lake
In dit artikel wordt beschreven hoe u Delta Lake in Azure Databricks kunt gebruiken voor het beheren van avg-naleving (General Data Protection Regulation) en California Consumer Privacy Act (CCPA) voor uw data lake. Naleving vereist vaak puntverplaatsingen of het verwijderen van afzonderlijke records binnen een grote verzameling gegevens. Delta Lake versnelt het verwijderen van punten in grote data lakes met ACID-transacties, zodat u persoonlijke idenfiable informatie (PII) kunt vinden en verwijderen als reactie op AVG- of CCPA-aanvragen van de consument.
Uw gegevensmodel plannen voor naleving
Het modelleren van uw gegevens voor naleving is een belangrijke stap in het omgaan met PII. Er zijn talloze levensvatbare benaderingen, afhankelijk van de behoeften van uw gegevensgebruikers.
Een veelgebruikte aanpak is gepseudonimiseerde of omkeerbare tokenisatie van persoonlijke gegevenselementen (id's) naar sleutels (gepseudonimiseerde) die niet extern kunnen worden geïdentificeerd. Naleving via gepseudonimisatie vereist zorgvuldige planning, waaronder de volgende:
- Opslag van informatie op een manier die is gekoppeld aan gepseudonimiseerde gegevens in plaats van id's.
- Onderhoud van strikt beleid voor de toegang en het gebruik van gegevens die de id's en gepseudonimiseerde gegevens combineren.
- Pijplijnen of opslagbeleid om onbewerkte gegevens te verwijderen.
- Logica voor het zoeken en verwijderen van de koppeling tussen de gepseudonimiseerde en id's.
Hoe Delta Lake punt-verwijderingen vereenvoudigt
Delta Lake heeft veel ingebouwde optimalisaties voor het overslaan van gegevens. Databricks raadt aan Z-order te gebruiken voor velden die u tijdens DELETE
bewerkingen gebruikt om punten te versnellen.
Delta Lake behoudt de tabelgeschiedenis en maakt deze beschikbaar voor point-in-time-query's en terugdraaiacties. Met de functie VACUUM worden gegevensbestanden verwijderd waarnaar niet meer wordt verwezen door een Delta-tabel en die ouder zijn dan een opgegeven retentiedrempel, waardoor de gegevens permanent worden verwijderd. Zie Werken met delta lake-tabelgeschiedenis voor meer informatie over standaardinstellingen en aanbevelingen.
Notitie
Voor tabellen waarvoor verwijderingsvectoren zijn ingeschakeld, moet u ook worden uitgevoerd REORG TABLE ... APPLY (PURGE)
om onderliggende records permanent te verwijderen. Zie Wijzigingen toepassen op Parquet-gegevensbestanden.