Соответствие GDPR и CCPA Delta Lake
В этой статье описано, как можно использовать Delta Lake на Azure Databricks для управления соответствием вашего озера данных Общему регламенту по защите данных (GDPR) и Закону о защите персональных данных пользователей штата Калифорния (CCPA). Для соответствия требованиям часто требуется удаление точек или удаление отдельных записей в большой коллекции данных. Delta Lake ускоряет точечное удаление в больших озерах данных с транзакциями ACID, что позволяет находить и удалять личные идентифицируемые данные (PII) по запросу в соответствии с требованиями GDPR или CCPA.
Планирование модели данных для соответствия требованиям
Моделирование данных для соответствия является важным шагом в работе с piI. Существует множество жизнеспособных подходов в зависимости от потребностей потребителей данных.
Одним из часто применяемых подходов является псевдонимизация или обратимая маркеризация элементов личной информации (идентификаторов) к ключам (псевдонимам), которые нельзя определить внешним образом. Для обеспечения соответствия с помощью псевдонимизации требуется тщательное планирование, в том числе следующее:
- Хранение информации таким образом, чтобы они связывали с псевдонимами, а не идентификаторами.
- Обслуживание строгих политик для доступа и использования данных, которые объединяют идентификаторы и псевдонимы.
- Конвейеры или политики хранения для удаления необработанных данных.
- Логика для поиска и удаления компоновки между псевдонимами и идентификаторами.
Как Delta Lake упрощает удаление точки
Delta Lake имеет много встроенных оптимизаций пропуска данных. Чтобы ускорить удаление точек, Databricks рекомендует использовать Z-порядок в полях, используемых во время DELETE
операций.
Delta Lake сохраняет историю таблиц и делает её доступной для запросов и откатов на конкретные моменты времени. Функция VACUUM удаляет файлы данных, на которые больше не ссылается таблица Delta и которые старше указанного порогового значения хранения, перманентно удаляя данные. Дополнительные сведения о значениях по умолчанию и рекомендациях см. в статье Работа с журналом таблиц Delta Lake.
Примечание.
Для таблиц с включенными векторами удаления необходимо также запустить REORG TABLE ... APPLY (PURGE)
для окончательного удаления базовых записей. См. статью "Применить изменения к файлам данных Parquet".