Использование конвейеров DLT с устаревшим хранилищем метаданных Hive

Статья
03/06/2025

В этой статье описаны конфигурации и предостережения, относящиеся к конвейерам DLT, настроенным для публикации данных в устаревшем хранилище метаданных Hive. Databricks рекомендует использовать каталог Unity для всех новых конвейеров. См. Используйте каталог Unity с вашими конвейерами DLT.

Заметка

В этой статье рассматриваются функции текущего режима публикации по умолчанию для конвейеров. Конвейеры, созданные до 5 февраля 2025 г., могут использовать устаревший режим публикации и LIVE виртуальную схему. См. схему LIVE (устаревшую версию).

Как запрашивать потоковые таблицы и материализованные представления в устаревшем хранилище метаданных Hive

После завершения обновления можно просмотреть схему и таблицы, запросить данные или использовать данные в подчиненных приложениях.

После публикации таблицы DLT можно запрашивать из любой среды с доступом к целевой схеме. К ним относятся Databricks SQL, записные книжки и другие конвейеры DLT.

Важный

При создании конфигурации target публикуются только таблицы и связанные метаданные. Представления не публикуются в хранилище метаданных.

настройка конвейера для публикации в хранилище метаданных Hive

При создании нового конвейера вы можете указать метастор Hive в разделе параметров хранилища для публикации в устаревшем метасторе Hive. При публикации в хранилище метаданных Hive необходимо указать целевую схему по умолчанию. См. Настройте конвейер DLT.

Указание расположения хранилища

Можно указать расположение хранилища для потока данных, который публикуется в метахранилище Hive. Основная мотивация указания расположения — управлять расположением хранилища объектов для данных, записанных конвейером. Databricks рекомендует всегда указывать расположение хранилища, чтобы избежать записи в корневой каталог DBFS.

Так как все таблицы, данные, контрольные точки и метаданные для конвейеров DLT полностью управляются DLT, большинство взаимодействий с наборами данных DLT происходит через таблицы, зарегистрированные в хранилище метаданных Hive или каталоге Unity.

конфигурация облачного хранилища

Чтобы получить доступ к службе хранилища Azure, необходимо установить требуемые параметры, включая токены доступа, с помощью параметров spark.conf в конфигурациях вашего кластера. Пример настройки доступа к учетной записи хранения Azure Data Lake Storage 2-го поколения (ADLS Gen2) см. в безопасный доступ к учетным данным хранилища с секретами в потоке.

Работа с журналом событий для конвейеров хранилища метаданных Hive

Если конвейер публикует таблицы в хранилище метаданных Hive, журнал событий хранится в /system/events по адресу storage. Например, если вы настроили параметр storage конвейера как /Users/username/data, журнал событий хранится в пути /Users/username/data/system/events в DBFS.

Если параметр storage не настроен, расположение журнала событий по умолчанию — /pipelines/<pipeline-id>/system/events, в DBFS. Например, если идентификатор вашего конвейера — 91de5e48-35ed-11ec-8d3d-0242ac130003, то место хранения — /pipelines/91de5e48-35ed-11ec-8d3d-0242ac130003/system/events.

Вы можете создать представление, чтобы упростить запросы к журналу событий. В следующем примере создается временное представление с именем event_log_raw. Это представление используется в примерах запросов журнала событий, включенных в эту статью:

CREATE OR REPLACE TEMP VIEW event_log_raw
AS SELECT * FROM delta.`<event-log-path>`;

Замените <event-log-path> расположением журнала событий.

Каждый экземпляр выполнения конвейера называется обновление. Часто требуется извлечь сведения для последнего обновления. Выполните следующий запрос, чтобы найти идентификатор последнего обновления и сохранить его во временном представлении latest_update_id. Это представление используется в примерах запросов журнала событий, включенных в эту статью:

CREATE OR REPLACE TEMP VIEW latest_update AS
SELECT origin.update_id AS id
FROM event_log_raw
WHERE event_type = 'create_update'
ORDER BY timestamp DESC
LIMIT 1;

Журнал событий можно запросить в записной книжке Azure Databricks или редакторе SQL. Используйте записную книжку или редактор SQL для выполнения примеров запросов журнала событий.

Пример записных книжек исходного кода конвейера для рабочих областей без каталога Unity

Вы можете импортировать следующие записные книжки в рабочую область Azure Databricks без включения каталога Unity и использовать их для развертывания конвейера DLT. Импортируйте записную книжку выбранного языка и укажите путь в поле исходный код при настройке конвейера с параметром хранилища метаданных Hive . См. настройкаконвейера DLT.

Начало работы с блокнотом DLT Python

Получение записной книжки

Начните работать с ноутбуком DLT SQL

Получите записную книжку

Поделиться через