Conformidade com o GDPR e com o CCPA usando o Delta Lake
Este artigo descreve como você pode usar o Delta Lake em Azure Databricks para gerenciar Regulamento Geral sobre a Proteção de Dados (GDPR) e conformidade de CCPA (lei de privacidade do consumidor) da Califórnia para seu data Lake. A conformidade geralmente exige a exclusão de pontos ou a exclusão de registros individuais em uma grande coleção de dados. O Delta Lake acelera a exclusão de pontos em grandes data lakes com transações ACID, permitindo que você localize e remova PII (informações de identificação pessoal) em resposta a solicitações de RGPD ou de CCPA do consumidor.
Planejar o modelo de dados para conformidade
Modelar os dados para conformidade é uma etapa importante para lidar com PII. Há várias abordagens viáveis, dependendo das necessidades dos consumidores de dados.
Uma abordagem aplicada com frequência é a pseudonimização ou a geração de tokens reversível dos elementos de informações pessoais (identificadores) para as chaves (pseudônimos) que não podem ser identificadas externamente. A conformidade por meio de pseudonimização exige um planejamento minucioso, incluindo o seguinte:
- Armazenamento de informações de uma maneira vinculada a pseudônimos, em vez de identificadores.
- Manutenção de políticas estritas para o acesso e o uso de dados que combinam os identificadores e pseudônimos.
- Pipelines ou políticas de armazenamento para remover dados brutos.
- Lógica para localizar e excluir a vinculação entre os pseudônimos e identificadores.
Como o Delta Lake simplifica a ão de pontos
O Delta Lake tem muitas otimizações internas para ignorar dados. Para acelerar a exclusão de pontos, o Databricks recomenda usar a ordem Z em nos campos que você usa durante as operações DELETE
.
O Delta Lake retém o histórico da tabela e torna-o disponível para consultas e reversões pontuais. A função VÁCUO remove ficheiros de dados que já não são referenciados por uma tabela Delta e que são mais antigos do que um limite de retenção especificado, eliminando permanentemente os dados. Para saber mais sobre padrões e recomendações, consulte Trabalhar com o histórico de tabelas do Delta Lake.
Observação
Para tabelas com vetores de exclusão habilitados, você também deve ser executar REORG TABLE ... APPLY (PURGE)
para excluir permanentemente registros subjacentes. Confira Aplicar alterações aos arquivos de dados Parquet.