Поделиться через


Управляемые и внешние volumes

В этой статье рассматриваются различия между управляемыми volumes и внешними volumes и причинами, по которым можно использовать внешние volumes. Databricks рекомендует управляемые volumes как самое простое решение для хранения и управления доступом к не табличным данным.

Дополнительные рекомендации по использованию Catalog Unity для настройки доступа к облачному хранилищу объектов см. в разделе Подключение к облачному хранилищу объектов и службам с помощью Unity Catalog.

Различия в поведении между управляемыми и внешними volumes

Управляемые и внешние volumes обеспечивают практически идентичные возможности при использовании средств Azure Databricks, пользовательских интерфейсов и API. Ниже приведены различия между этими типами томов.

Управляемые volumes предоставляют полностью управляемый интерфейс хранения. Это означает следующее:

  • Все взаимодействия с файлами в рамках управляемой системы volumes должны осуществляться через Unity Catalog.
  • Именование каталогов и структура данных управляются Unity Catalog. Имена каталогов включают хэши, чтобы избежать конфликтов в базовых учетных записях хранения объектов облака.
  • При удалении управляемого тома Azure Databricks удаляет базовые данные в течение 30 дней.

Внешние volumes переносят управление данными в облачное хранилище объектов. Это означает следующее:

  • Облачные URI можно использовать в Azure Databricks или внешних системах для взаимодействия с файлами во внешних volumes.
  • Все каталоги, созданные во внешнем томе или отправленных файлах, относятся к указанному LOCATION при создании.
  • При удалении внешнего тома из Unity с помощью remove, том Catalog, но базовые данные остаются неизменными в своем внешнем расположении.

Зачем использовать внешний volumes?

Внешние ресурсы volumes позволяют добавлять систему управления данными Unity Catalog в уже существующие каталоги облачного объектного хранилища. Некоторые случаи использования внешних volumes включают следующее:

  • Добавление управления в файлы данных без миграции.
  • Управление файлами, созданными другими системами, которые должны быть приняты или доступны Azure Databricks.
  • Управление данными, созданными Azure Databricks, которые должны быть доступны непосредственно из облачного хранилища объектов другими системами.

Databricks рекомендует использовать внешние volumes для хранения не табличных файлов данных, которые считываются или записываются внешними системами в дополнение к Azure Databricks. Catalog Unity не управляет операциями чтения и записи, которые выполняются непосредственно в облачном хранилище объектов из внешних систем. Поэтому необходимо настроить дополнительные политики и credentials в вашей учетной записи в облаке, чтобы обеспечить соблюдение политик управления данными вне Azure Databricks.