GDPR och CCPA-efterlevnad med Delta Lake
Den här artikeln beskriver hur du kan använda Delta Lake på Azure Databricks för att hantera GDPR(General Data Protection Regulation) och CcPA-efterlevnad (California Consumer Privacy Act) för din datasjö. Efterlevnad kräver ofta punktborttagning eller borttagning av enskilda poster i en stor samling data. Delta Lake påskyndar punktborttagningar i stora datasjöar med ACID-transaktioner, så att du kan hitta och remove personligt identifierbar information (PII) som svar på gdpr- eller CCPA-begäranden för konsumenter.
Planera din datamodell för efterlevnad
Att modellera dina data för efterlevnad är ett viktigt steg i hanteringen av PII. Det finns många användbara metoder beroende på dina datakonsumenters behov.
En metod som används ofta är pseudonymisering eller reversibel tokenisering av personliga informationselement (identifierare) till nycklar (pseudonymer) som inte kan identifieras externt. Efterlevnad via pseudonymisering kräver noggrann planering, inklusive följande:
- Lagring av information på ett sätt som är kopplat till pseudonymer snarare än identifierare.
- Underhåll av strikta principer för åtkomst och användning av data som kombinerar identifierare och pseudonymer.
- Pipelines eller lagringsprinciper för remove rådata.
- Logik för att hitta och ta bort kopplingen mellan pseudonymer och identifierare.
Så förenklar Delta Lake punktborttagningar
Delta Lake har många inbyggda optimeringar för datahopp . För att påskynda punktborttagningar rekommenderar Databricks att du använder Z-ordning på fält som du använder under DELETE
åtgärder.
Delta Lake behåller table historik och gör den tillgänglig för tidspecifika frågor och återställningar/rollback. Funktionen VACUUM tar bort datafiler som inte längre refereras till av en Delta-table och som är äldre än ett angivet kvarhållningströskelvärde och tar bort data permanent. Mer information om standardvärden och rekommendationer finns i Arbeta med Delta Lake table historik.
Kommentar
För tables med borttagningsvektorer aktiverade måste du också köra REORG TABLE ... APPLY (PURGE)
för att permanent ta bort underliggande poster. Se Tillämpa ändringar på Parquet-datafiler.