Conformidade com o GDPR e com o CCPA usando o Delta Lake
Este artigo descreve como você pode usar o Delta Lake em Azure Databricks para gerenciar Regulamento Geral sobre a Proteção de Dados (GDPR) e conformidade de CCPA (lei de privacidade do consumidor) da Califórnia para seu data Lake. A conformidade geralmente exige a exclusão de pontos ou a exclusão de registros individuais em uma grande coleção de dados. O Delta Lake acelera a exclusão de pontos em grandes data lakes com transações ACID, permitindo que você localize e remove PII (informações de identificação pessoal) em resposta a solicitações de RGPD ou de CCPA do consumidor.
Planejar o modelo de dados para conformidade
Modelar os dados para conformidade é uma etapa importante para lidar com PII. Há várias abordagens viáveis, dependendo das necessidades dos consumidores de dados.
Uma abordagem aplicada com frequência é a pseudonimização ou a geração de tokens reversível dos elementos de informações pessoais (identificadores) para as chaves (pseudônimos) que não podem ser identificadas externamente. A conformidade por meio de pseudonimização exige um planejamento minucioso, incluindo o seguinte:
- Armazenamento de informações de uma maneira vinculada a pseudônimos, em vez de identificadores.
- Manutenção de políticas estritas para o acesso e o uso de dados que combinam os identificadores e pseudônimos.
- Pipelines ou políticas de armazenamento de dados brutos para remove.
- Lógica para localizar e excluir a vinculação entre os pseudônimos e identificadores.
Como o Delta Lake simplifica a ão de pontos
O Delta Lake tem muitas otimizações internas para ignorar dados. Para acelerar a exclusão de pontos, o Databricks recomenda usar a ordem Z em nos campos que você usa durante as operações DELETE
.
O Delta Lake retém o histórico da table e torna-o disponível para consultas e reversões pontuais. A função VACUUM remove arquivos de dados que não são mais referenciados por uma table Delta e são mais antigos que um limite de retenção especificado, excluindo permanentemente os dados. Para saber mais sobre padrões e recomendações, confira Trabalhar com o histórico de table do Delta Lake.
Observação
Para tables com vetores de exclusão habilitados, você também deve executar REORG TABLE ... APPLY (PURGE)
para excluir permanentemente os registros subjacentes. Confira Aplicar alterações aos arquivos de dados Parquet.