DODRŽOVÁNÍ NAŘÍZENÍ GDPR a ÚSTŘEDNÍ PROTISTRANY s Delta Lake
Tento článek popisuje, jak můžete pomocí Delta Lake v Azure Databricks spravovat obecné nařízení o ochraně osobních údajů (GDPR) a zákon o ochraně osobních údajů pro spotřebitele v Kalifornii (CCPA) pro vaše datové jezero. Dodržování předpisů často vyžaduje odstranění bodu nebo odstranění jednotlivých záznamů v rámci velké kolekce dat. Delta Lake zrychluje odstraňování konkrétních záznamů ve velkých datových jezerech s transakcemi ACID, což umožňuje vyhledat a odebrat osobní údaje (PII) v reakci na žádosti podle GDPR nebo CCPA.
Plánování datového modelu pro zajištění dodržování předpisů
Modelování dat pro dodržování předpisů je důležitým krokem při řešení piI. V závislosti na potřebách vašich příjemců dat existuje celá řada realizovatelných přístupů.
Jedním z často používaných přístupů je pseudonymizace nebo reverzibilní tokenizace prvků osobních informací (identifikátorů) ke klíčům (pseudonymům), které nelze externě identifikovat. Dodržování předpisů prostřednictvím pseudonymizace vyžaduje pečlivé plánování, včetně následujících:
- Ukládání informací způsobem propojeným s pseudonymy, nikoli identifikátory.
- Údržba striktních zásad pro přístup a používání dat, která kombinují identifikátory a pseudonymy.
- Kanály nebo zásady úložiště pro odebrání nezpracovaných dat
- Logika pro vyhledání a odstranění propojení mezi pseudonymy a identifikátory.
Jak Delta Lake zjednodušuje odstraňování bodů
Delta Lake má řadu integrovaných optimalizací přeskakování dat. Aby bylo možné urychlit odstranění bodů, databricks doporučuje používat pořadí Z u polí, která používáte během DELETE
operací.
Delta Lake uchovává historii tabulek a zpřístupňuje ji pro dotazy k určitému bodu v čase a vrácení zpět. Funkce VACUUM odebere datové soubory, na které už tabulka Delta neodkazuje a které jsou starší než zadaná prahová hodnota uchovávání, trvale odstraní data. Další informace o výchozích nastaveních a doporučeních najdete v tématu Práce s historií tabulek Delta Lake.
Poznámka:
U tabulek s povolenými vektory odstranění musíte také spustit REORG TABLE ... APPLY (PURGE)
, aby se trvale odstranily podkladové záznamy. Viz Použití změn u datových souborů Parquet.