Conformidade com o RGPD e a CCPA com o Delta Lake
Este artigo descreve como você pode usar o Delta Lake no Azure Databricks para gerenciar a conformidade do Regulamento Geral de Proteção de Dados (GDPR) e da Lei de Privacidade do Consumidor da Califórnia (CCPA) para seu data lake. A conformidade geralmente requer exclusões pontuais ou a exclusão de registros individuais dentro de uma grande coleção de dados. O Delta Lake acelera as exclusões de pontos em grandes data lakes com transações ACID, permitindo que você localize e remove informações pessoalmente identificáveis (PII) em resposta a solicitações de GDPR ou CCPA do consumidor.
Planeje seu modelo de dados para conformidade
Modelar seus dados para conformidade é uma etapa importante para lidar com PII. Existem inúmeras abordagens viáveis, dependendo das necessidades dos seus consumidores de dados.
Uma abordagem frequentemente aplicada é a pseudonimização, ou tokenização reversível de elementos de informação pessoal (identificadores) para chaves (pseudónimos) que não podem ser identificados externamente. A conformidade por meio de pseudonimização requer um planejamento cuidadoso, incluindo o seguinte:
- Armazenamento de informações de uma forma ligada a pseudónimos em vez de identificadores.
- Manutenção de políticas rigorosas de acesso e utilização de dados que combinem os identificadores e pseudónimos.
- Pipelines ou políticas de armazenamento dos dados brutos remove.
- Lógica para localizar e eliminar a ligação entre os pseudónimos e os identificadores.
Como o Delta Lake simplifica as exclusões de pontos
O Delta Lake tem muitas otimizações de pulo de dados incorporadas. Para acelerar as exclusões de pontos, o Databricks recomenda o uso da ordem Z nos campos que você usa durante DELETE
as operações.
O Delta Lake retém table histórico e o disponibiliza para consultas point-in-time e reversões. A função VACUUM remove arquivos de dados que não são mais referenciados por um table Delta e são mais antigos do que um limite de retenção especificado, excluindo permanentemente os dados. Para saber mais sobre configurações padrão e recomendações, consulte Trabalhar com o Delta Lake e o seu histórico table.
Nota
Para tables com vetores de exclusão habilitados, você também deve executar REORG TABLE ... APPLY (PURGE)
para excluir permanentemente os registros subjacentes. Consulte Aplicar alterações aos arquivos de dados do Parquet.