Sdílet prostřednictvím


DODRŽOVÁNÍ NAŘÍZENÍ GDPR a ÚSTŘEDNÍ PROTISTRANY s Delta Lake

Tento článek popisuje, jak můžete pomocí Delta Lake v Azure Databricks spravovat obecné nařízení o ochraně osobních údajů (GDPR) a zákon o ochraně osobních údajů pro spotřebitele v Kalifornii (CCPA) pro vaše datové jezero. Dodržování předpisů často vyžaduje odstranění bodu nebo odstranění jednotlivých záznamů v rámci velké kolekce dat. Delta Lake zrychluje odstraňování konkrétních záznamů ve velkých datových jezerech s transakcemi ACID, což umožňuje vyhledat a odebrat osobní údaje (PII) v reakci na žádosti podle GDPR nebo CCPA.

Plánování datového modelu pro zajištění dodržování předpisů

Modelování dat pro dodržování předpisů je důležitým krokem při řešení piI. V závislosti na potřebách vašich příjemců dat existuje celá řada realizovatelných přístupů.

Jedním z často používaných přístupů je pseudonymizace nebo reverzibilní tokenizace prvků osobních informací (identifikátorů) ke klíčům (pseudonymům), které nelze externě identifikovat. Dodržování předpisů prostřednictvím pseudonymizace vyžaduje pečlivé plánování, včetně následujících:

  • Ukládání informací způsobem propojeným s pseudonymy, nikoli identifikátory.
  • Údržba striktních zásad pro přístup a používání dat, která kombinují identifikátory a pseudonymy.
  • Kanály nebo zásady úložiště pro odebrání nezpracovaných dat
  • Logika pro vyhledání a odstranění propojení mezi pseudonymy a identifikátory.

Jak Delta Lake zjednodušuje odstraňování bodů

Delta Lake má řadu integrovaných optimalizací přeskakování dat. Aby bylo možné urychlit odstranění bodů, databricks doporučuje používat pořadí Z u polí, která používáte během DELETE operací.

Delta Lake uchovává historii tabulek a zpřístupňuje ji pro dotazy k určitému bodu v čase a vrácení zpět. Funkce VACUUM odebere datové soubory, na které už tabulka Delta neodkazuje a které jsou starší než zadaná prahová hodnota uchovávání, trvale odstraní data. Další informace o výchozích nastaveních a doporučeních najdete v tématu Práce s historií tabulek Delta Lake.

Poznámka:

U tabulek s povolenými vektory odstranění musíte také spustit REORG TABLE ... APPLY (PURGE), aby se trvale odstranily podkladové záznamy. Viz Použití změn u datových souborů Parquet.