Поделиться через


Соответствие GDPR и CCPA Delta Lake

В этой статье описано, как можно использовать Delta Lake на Azure Databricks для управления соответствием вашего озера данных Общему регламенту по защите данных (GDPR) и Закону о защите персональных данных пользователей штата Калифорния (CCPA). Для соответствия требованиям часто требуется удаление точек или удаление отдельных записей в большой коллекции данных. Delta Lake ускоряет точечное удаление в больших озерах данных с транзакциями ACID, что позволяет находить и удалять личные идентифицируемые данные (PII) по запросу в соответствии с требованиями GDPR или CCPA.

Планирование модели данных для соответствия требованиям

Моделирование данных для соответствия является важным шагом в работе с piI. Существует множество жизнеспособных подходов в зависимости от потребностей потребителей данных.

Одним из часто применяемых подходов является псевдонимизация или обратимая маркеризация элементов личной информации (идентификаторов) к ключам (псевдонимам), которые нельзя определить внешним образом. Для обеспечения соответствия с помощью псевдонимизации требуется тщательное планирование, в том числе следующее:

  • Хранение информации таким образом, чтобы они связывали с псевдонимами, а не идентификаторами.
  • Обслуживание строгих политик для доступа и использования данных, которые объединяют идентификаторы и псевдонимы.
  • Конвейеры или политики хранения для удаления необработанных данных.
  • Логика для поиска и удаления компоновки между псевдонимами и идентификаторами.

Как Delta Lake упрощает удаление точки

Delta Lake имеет много встроенных оптимизаций пропуска данных. Чтобы ускорить удаление точек, Databricks рекомендует использовать Z-порядок в полях, используемых во время DELETE операций.

Delta Lake сохраняет историю таблиц и делает её доступной для запросов и откатов на конкретные моменты времени. Функция VACUUM удаляет файлы данных, на которые больше не ссылается таблица Delta и которые старше указанного порогового значения хранения, перманентно удаляя данные. Дополнительные сведения о значениях по умолчанию и рекомендациях см. в статье Работа с журналом таблиц Delta Lake.

Примечание.

Для таблиц с включенными векторами удаления необходимо также запустить REORG TABLE ... APPLY (PURGE) для окончательного удаления базовых записей. См. статью "Применить изменения к файлам данных Parquet".