Использование конвейеров Delta Live Tables с устаревшим хранилищем метаданных Hive
В этой статье описаны конфигурации и предостережения, относящиеся к конвейерам Delta Live Tables, настроенным для публикации данных в устаревшем хранилище метаданных Hive. Databricks рекомендует использовать каталог Unity для всех новых конвейеров. См. раздел "Использование каталога Unity" с конвейерами Delta Live Tables.
Публикация наборов данных конвейера в устаревшем хранилище метаданных Hive
В то время как необязательно, необходимо указать целевой объект для публикации таблиц, созданных конвейером в любое время, когда вы переходите за рамки разработки и тестирования для нового конвейера. Публикация конвейера в целевой объект делает наборы данных доступными для запроса в другом месте среды Azure Databricks.
Вы можете сделать выходные данные конвейера обнаруживаемыми и доступными для запроса, публикуя наборы данных в хранилище метаданных Hive. Чтобы опубликовать наборы данных в хранилище метаданных, введите имя схемы в поле Target при создании конвейера. Вы также можете добавить целевую базу данных в существующий конвейер.
Все таблицы и представления, созданные в delta Live Tables, являются локальными для конвейера по умолчанию. Необходимо опубликовать таблицы в целевой схеме для запроса или использования наборов данных Delta Live Tables за пределами конвейера, в котором они объявлены.
Сведения о публикации таблиц из конвейеров в каталоге Unity см. в статье Использование Unity Catalog с конвейерами Delta Live Tables.
Публикация наборов данных Delta Live Tables в устаревшем хранилище метаданных Hive
Вы можете объявить целевую схему для всех таблиц в конвейере Delta Live Tables с помощью поля целевой схемы в параметрах конвейера и создании пользовательских интерфейсов конвейера.
Можно также указать схему в конфигурации JSON, задав target
значение.
Для публикации результатов в целевой схеме необходимо выполнить обновление конвейера.
Эту функцию можно использовать с несколькими конфигурациями среды для публикации в разных схемах в зависимости от среды. Например, можно опубликовать схему для разработки dev
и prod
схемы для рабочих данных.
Как запрашивать потоковые таблицы и материализованные представления в устаревшем хранилище метаданных Hive
После завершения обновления можно просмотреть схему и таблицы, запросить данные или использовать данные в подчиненных приложениях.
После публикации таблицы Delta Live Tables можно запрашивать из любой среды с доступом к целевой схеме. Сюда входят конвейеры Databricks SQL, записных книжек и других конвейеров Разностных динамических таблиц.
Внимание
При создании конфигурации target
публикуются только таблицы и связанные метаданные. Представления в хранилище метаданных не публикуются.
Указание расположения хранилища
Можно указать расположение хранилища для конвейера, который публикуется в хранилище метаданных Hive. Основная мотивация указания расположения — управлять расположением хранилища объектов для данных, записанных конвейером.
Так как все таблицы, данные, контрольные точки и метаданные для конвейеров Delta Live Tables полностью управляются разностными динамическими таблицами, большинство взаимодействий с наборами данных Delta Live Tables происходит через таблицы, зарегистрированные в хранилище метаданных Hive или каталог Unity.
Конфигурация облачного хранилища
Чтобы получить доступ к хранилищу Azure, необходимо настроить необходимые параметры, включая маркеры доступа, с помощью spark.conf
параметров в конфигурациях кластера. Пример настройки доступа к учетной записи хранения Azure Data Lake Storage 2-го поколения (ADLS 2-го поколения) см. в статье "Безопасный доступ к учетным данным хранилища с секретами в конвейере".
Пример записных книжек исходного кода конвейера для рабочих областей без каталога Unity
Следующие записные книжки можно импортировать в рабочую область Azure Databricks без включения каталога Unity и использовать их для развертывания конвейера Delta Live Tables. Импортируйте записную книжку выбранного языка и укажите путь в поле исходного кода при настройке конвейера с параметром хранилища метаданных Hive. См. статью "Настройка конвейера разностных динамических таблиц".