Поделиться через


Использование конвейеров Delta Live Tables с устаревшим хранилищем метаданных Hive

В этой статье описаны конфигурации и предостережения, относящиеся к конвейерам Delta Live Tables, настроенным для публикации данных в устаревшем хранилище метаданных Hive. Databricks рекомендует использовать каталог Unity для всех новых конвейеров. См. раздел "Использование каталога Unity" с конвейерами Delta Live Tables.

Публикация наборов данных конвейера в устаревшем хранилище метаданных Hive

В то время как необязательно, необходимо указать целевой объект для публикации таблиц, созданных конвейером в любое время, когда вы переходите за рамки разработки и тестирования для нового конвейера. Публикация конвейера в целевой объект делает наборы данных доступными для запроса в другом месте среды Azure Databricks.

Вы можете сделать выходные данные конвейера обнаруживаемыми и доступными для запроса, публикуя наборы данных в хранилище метаданных Hive. Чтобы опубликовать наборы данных в хранилище метаданных, введите имя схемы в поле Target при создании конвейера. Вы также можете добавить целевую базу данных в существующий конвейер.

Все таблицы и представления, созданные в delta Live Tables, являются локальными для конвейера по умолчанию. Необходимо опубликовать таблицы в целевой схеме для запроса или использования наборов данных Delta Live Tables за пределами конвейера, в котором они объявлены.

Сведения о публикации таблиц из конвейеров в каталоге Unity см. в статье Использование Unity Catalog с конвейерами Delta Live Tables.

Публикация наборов данных Delta Live Tables в устаревшем хранилище метаданных Hive

Вы можете объявить целевую схему для всех таблиц в конвейере Delta Live Tables с помощью поля целевой схемы в параметрах конвейера и создании пользовательских интерфейсов конвейера.

Можно также указать схему в конфигурации JSON, задав target значение.

Для публикации результатов в целевой схеме необходимо выполнить обновление конвейера.

Эту функцию можно использовать с несколькими конфигурациями среды для публикации в разных схемах в зависимости от среды. Например, можно опубликовать схему для разработки dev и prod схемы для рабочих данных.

Как запрашивать потоковые таблицы и материализованные представления в устаревшем хранилище метаданных Hive

После завершения обновления можно просмотреть схему и таблицы, запросить данные или использовать данные в подчиненных приложениях.

После публикации таблицы Delta Live Tables можно запрашивать из любой среды с доступом к целевой схеме. Сюда входят конвейеры Databricks SQL, записных книжек и других конвейеров Разностных динамических таблиц.

Внимание

При создании конфигурации target публикуются только таблицы и связанные метаданные. Представления в хранилище метаданных не публикуются.

Указание расположения хранилища

Можно указать расположение хранилища для конвейера, который публикуется в хранилище метаданных Hive. Основная мотивация указания расположения — управлять расположением хранилища объектов для данных, записанных конвейером.

Так как все таблицы, данные, контрольные точки и метаданные для конвейеров Delta Live Tables полностью управляются разностными динамическими таблицами, большинство взаимодействий с наборами данных Delta Live Tables происходит через таблицы, зарегистрированные в хранилище метаданных Hive или каталог Unity.

Конфигурация облачного хранилища

Чтобы получить доступ к хранилищу Azure, необходимо настроить необходимые параметры, включая маркеры доступа, с помощью spark.conf параметров в конфигурациях кластера. Пример настройки доступа к учетной записи хранения Azure Data Lake Storage 2-го поколения (ADLS 2-го поколения) см. в статье "Безопасный доступ к учетным данным хранилища с секретами в конвейере".

Пример записных книжек исходного кода конвейера для рабочих областей без каталога Unity

Следующие записные книжки можно импортировать в рабочую область Azure Databricks без включения каталога Unity и использовать их для развертывания конвейера Delta Live Tables. Импортируйте записную книжку выбранного языка и укажите путь в поле исходного кода при настройке конвейера с параметром хранилища метаданных Hive. См. статью "Настройка конвейера разностных динамических таблиц".

Начало работы с записной книжкой Python для Delta Live Tables

Получить записную книжку

Начало работы с записной книжкой SQL для Delta Live Tables

Получить записную книжку