Поделиться через


Объекты базы данных в Azure Databricks

Azure Databricks использует два основных защищаемых объекта для хранения и доступа к данным.

  • Tables регулирует доступ к табличным данным.
  • Volumes управляют доступом к нетабличным данным.

В этой статье описывается, как эти объекты базы данных связаны с catalogs, схемами, viewsи другими объектами базы данных в Azure Databricks. Эта статья также содержит общие сведения о том, как объекты базы данных работают в контексте общей архитектуры платформы.

Что такое объекты базы данных в Azure Databricks?

Объекты базы данных — это сущности, которые помогают упорядочивать, получать доступ к данным и управлять ими. Azure Databricks использует трехуровневую иерархию для упорядочивания объектов базы данных:

  1. Catalog: контейнер верхнего уровня содержит схемы. См. Что такое catalogs в Azure Databricks?.
  2. Schema или база данных: содержит объекты данных. См. сведения о схемах в Azure Databricks?.
  3. Объекты данных, которые могут содержаться в schema:

Unity Catalog схема объектной модели

Catalogs регистрируются в хранилище метаданных, управляемом на уровне учетной записи. Только администраторы взаимодействуют непосредственно с хранилищем метаданных. См. Metastores.

Azure Databricks предоставляет дополнительные ресурсы для работы с данными, все из которых можно управлять с помощью элементов управления доступом на уровне рабочей области или Unity Catalog, решения для управления данными Databricks:

  • Ресурсы данных уровня рабочей области, такие как записные книжки, задания и запросы.
  • Unity Catalog защищаемые объекты, такие как хранилище credentials и Delta Sharing shares, которые в основном управляют доступом к хранилищу или безопасному обмену.

Дополнительные сведения см. в статье Объекты базы данных и защищаемые ресурсы данных рабочей области и Unity Catalog защищаемых credentials и инфраструктуры.

Управление доступом к объектам базы данных с помощью Catalog Unity

Вы можете grant и revoke доступ к объектам базы данных на любом уровне иерархии, включая само хранилище метаданных. Доступ к объекту неявно предоставляет одинаковый доступ ко всем дочерним элементам этого объекта, если доступ не отменяется.

Стандартные команды ANSI SQL можно использовать для grant и revoke доступа к объектам в Unity Catalog. Вы также можете использовать обозреватель Catalog для управления правами объекта данных на основе пользовательского интерфейса.

Дополнительные сведения о возможностях защиты объектов в Unity Catalogсм. в разделе "Защищаемые объекты в Unity" Catalog.

Разрешения объектов по умолчанию в Unity Catalog

В зависимости от того, как была создана и включена рабочая область для Unity Catalog, пользователи могут иметь разрешения по умолчанию для автоматически подготовленных catalogs, включая либо maincatalog, либо рабочую область catalog (<workspace-name>). Дополнительные сведения см. в разделе "Привилегии пользователей по умолчанию".

Если рабочая область была включена для Unity Catalog вручную, она содержит schema по умолчанию с именем default в maincatalog, доступную всем пользователям в вашей рабочей области. Если рабочая область была автоматически включена для Unity Catalog и содержит <workspace-name>catalog, то catalog, содержащая schema с именем default, доступна всем пользователям вашей рабочей области.

Объекты базы данных и защищаемые ресурсы данных рабочей области

Azure Databricks позволяет управлять несколькими ресурсами аналитики, аналитики, машинного обучения и искусственного интеллекта вместе с объектами базы данных. Вы не регистрируете эти ресурсы данных в Unity Catalog. Вместо этого эти ресурсы управляются на уровне рабочей области, используя списки элементов управления для управления разрешениями. К этим ресурсам данных относятся следующие:

  • Записные книжки
  • Панели мониторинга
  • Работы
  • Pipelines
  • Файлы рабочей области
  • SQL-запросы
  • Эксперименты

Большинство ресурсов данных содержат логику, которая взаимодействует с объектами базы данных для запроса данных, использования функций, регистрации моделей или других распространенных задач. Дополнительные сведения о защите ресурсов данных рабочей области см . в списках управления доступом.

Примечание.

Доступ к вычислительным ресурсам регулируется списками управления доступом. Вы настраиваете вычисления с помощью режима доступа и можете добавлять дополнительные облачные разрешения, которые управляют доступом пользователей к данным. Databricks рекомендует использовать политики вычислений и ограничивать привилегии создания кластера в качестве рекомендации по управлению данными. См . режимы доступа.

Unity Catalog защищаемые credentials и инфраструктура

Unity Catalog управляет доступом к облачному объектному хранилищу, обменом данными и распределенным выполнением запросов с помощью защищаемых объектов, которые регистрируются на уровне метахранилища. Ниже приведены краткие описания этих защищаемых объектов, не являющихся данными.

Подключение Catalog Unity к облачному хранилищу объектов

Необходимо определить хранилище credentials и внешние расположения, чтобы создать новое управляемое хранилище или зарегистрировать внешние tables или volumes. Эти защищаемые объекты зарегистрированы в Unity Catalog:

  • Учетные данные хранения: долгосрочные облачные учетные данные, предоставляющие доступ к облачному хранилищу.
  • Внешнее расположение: ссылка на путь к хранилищу облачных объектов, доступная с помощью парных учетных данных хранилища.

См. статью Подключение к облачному объектному хранилищу и сервисам с помощью Unity Catalog.

Разностный общий доступ

Azure Databricks регистрирует следующие защищаемые объекты Delta Sharing в CatalogUnity:

  • Совместное использование: коллекция tables, volumesи других ресурсов данных только для чтения.
  • поставщик: организация или сущность, shares данные. В модели обмена данными Databricks-to-Databricks поставщик регистрируется в хранилище метаданных Unity Catalog получателя как уникальная сущность, идентифицируемая по своему ID хранилища метаданных.
  • получатель: объект, который получает shares от поставщика. В модели общего доступа Databricks to Databricks получатель определяется поставщиком по уникальному идентификатору хранилища метаданных.

См. раздел "Что такое разностный общий доступ?".

Федерация Lakehouse

Федерация Lakehouse позволяет создавать внешние catalogs для предоставления доступа только для чтения к данным, размещённым в других системах, например, в таких как PostgreSQL, MySQL и Snowflake. Для создания внешних catalogsнеобходимо определить подключение к внешней системе.

Подключение: объект безопасности Unity Catalog указывает путь и credentials для доступа к внешней системе баз данных в сценарии федерации Lakehouse.

См. статью "Что такое Федерация Lakehouse?".

Управляемые места хранения для элементов volumes и tables

При создании tables и volumes Azure Databricks вы можете сделать их управляемыми или внешними. Unity Catalog управляет доступом к внешним tables и volumes из Azure Databricks, но не управляет базовыми файлами или полностью управляет расположением хранилища этих файлов. С другой стороны, управляемые tables и volumesполностью контролируются с помощью Unity Catalog и хранятся в управляемом месте хранения , связанном с содержащим элементом schema. См. Укажите расположение управляемого хранилища в Unity Catalog.

Databricks рекомендует управляемые volumes и tables для большинства рабочих нагрузок, так как они упрощают настройку, оптимизацию и управление.

Unity Catalog и устаревшее хранилище метаданных Hive

Databricks рекомендует использовать Unity Catalog для регистрации и управления всеми объектами базы данных, но также обеспечивает устаревшую поддержку хранилища метаданных Hive для управления схемами, tables, viewsи функциями.

Если вы взаимодействуете с объектами базы данных, зарегистрированными с помощью хранилища метаданных Hive, см . статью "Объекты базы данных" в устаревшем хранилище метаданных Hive.