使用 Delta Lake 实现 GDPR 和 CCPA 符合性
本文介绍如何使用 Azure Databricks 上的 Delta Lake 管理数据湖的《一般数据保护条例》(GDPR) 和《加州消费者隐私法》(CCPA) 合规性。 合规性通常要求点删除,或删除大型数据集合中的个别记录。 Delta Lake 通过 ACID 事务加速大型数据湖中的点删除,使你能够定位和删除个人身份信息 (PII) 以响应所有者 GDPR 或 CCPA 请求。
规划数据模型以确保合规性
为确保合规性而对数据建模是处理 PII 的重要步骤。 根据数据使用者的需求,有许多可行的方法。
一种经常应用的方法是假名化,或将个人信息元素(标识符)可逆地标记化为无法从外部标识的密钥(假名)。 通过假名化来确保合规性需要仔细规划,其中包括:
- 以链接到假名而非标识符的方式存储信息。
- 维护严格的策略,以访问和使用组合标识符和假名的数据。
- 用于删除原始数据的管道或存储策略。
- 用于定位和删除假名和标识符之间的链接的逻辑。
Delta Lake 如何简化点删除
Delta Lake 内置了许多数据跳过优化。 为了加速点删除,Databricks 建议对你在 DELETE
操作期间使用的字段使用 Z 排序。
Delta Lake 会保留表历史记录,并使其可用于时间点查询和回滚。 VACUUM 函数删除 Delta 表不再引用的数据文件,并且早于指定的保留阈值,永久删除数据。 若要详细了解默认值和建议,请参阅使用 Delta Lake 表历史记录。
注意
对于启用了删除矢量的表,还必须运行 REORG TABLE ... APPLY (PURGE)
以永久删除基础记录。 请参阅将更改应用于 Parquet 数据文件。