Usar pipelines de DLT com metastore legado do Hive
Este artigo detalha configurações e avisos específicos para pipelines DLT configurados para publicar dados no metastore tradicional do Hive. A Databricks recomenda o uso do Unity Catalog para todos os novos pipelines. Consulte Usar o catálogo Unity com os seus pipelines de DLT.
Observação
Este artigo discute as funcionalidades do atual modo padrão de publicação para pipelines. Os pipelines criados antes de 5 de fevereiro de 2025 podem usar o modo de publicação herdado e o esquema virtual LIVE
. Consulte esquema LIVE (legado).
Como consultar tabelas de streaming e visões materializadas no metastore legado do Hive
Após a conclusão de uma atualização, você pode exibir o esquema e as tabelas, consultar os dados ou usá-los em aplicativos downstream.
Uma vez publicadas, as tabelas DLT podem ser consultadas a partir de qualquer ambiente com acesso ao esquema de destino. Isso inclui Databricks SQL, notebooks e outros pipelines de DLT.
Importante
Quando você cria uma configuração de target
, somente tabelas e metadados associados são publicados. As visualizações não são publicadas no metastore.
Configurar um pipeline para publicar no metastore do Hive
Ao criar um novo pipeline, pode especificar o metastore do Hive nas opções de armazenamento para publicar no metastore herdado do Hive. Você deve especificar um esquema de destino padrão ao publicar no metastore do Hive. Consulte Para configurar um pipeline de DLT.
Especificar um local de armazenamento
Você pode especificar um local de armazenamento para um pipeline que publica no metastore do Hive. A principal motivação para especificar um local é controlar o local de armazenamento de objetos para dados gravados pelo seu pipeline. Databricks recomenda sempre especificar um local de armazenamento para evitar gravar na raiz do DBFS.
Como todas as tabelas, dados, pontos de verificação e metadados para pipelines DLT são totalmente gerenciados por DLT, a maior parte da interação com conjuntos de dados DLT acontece por meio de tabelas registradas no metastore do Hive ou no Unity Catalog.
Configuração de armazenamento na nuvem
Para aceder ao armazenamento do Azure , deve configurar os parâmetros necessários, incluindo tokens de acesso, nas configurações do seu cluster, usando spark.conf
. Para um exemplo de como configurar o acesso a uma conta de armazenamento do Azure Data Lake Storage Gen2 (ADLS Gen2), consulte Aceder de forma segura às credenciais de armazenamento usando segredos num pipeline.
Trabalhar com registo de eventos para pipelines do metastore do Hive
Se o pipeline publica tabelas no metastore do Hive, o log de eventos é armazenado em /system/events
na localização storage
. Por exemplo, se você tiver configurado sua configuração de pipeline storage
como /Users/username/data
, o log de eventos será armazenado no caminho /Users/username/data/system/events
no DBFS.
Se você não tiver configurado a configuração storage
, o local padrão do log de eventos será /pipelines/<pipeline-id>/system/events
no DBFS. Por exemplo, se o identificador do seu pipeline for 91de5e48-35ed-11ec-8d3d-0242ac130003
, o local de armazenamento será /pipelines/91de5e48-35ed-11ec-8d3d-0242ac130003/system/events
.
Você pode criar um modo de exibição para simplificar a consulta ao log de eventos. O exemplo a seguir cria um modo de exibição temporário chamado event_log_raw
. Esse modo de exibição é usado nas consultas de log de eventos de exemplo incluídas neste artigo:
CREATE OR REPLACE TEMP VIEW event_log_raw
AS SELECT * FROM delta.`<event-log-path>`;
Substitua <event-log-path>
pelo local do log de eventos.
Cada instância de uma execução de pipeline é chamada de atualização de . Muitas vezes, você deseja extrair informações para a atualização mais recente. Execute a consulta a seguir para localizar o identificador da atualização mais recente e salvá-lo no modo de exibição latest_update_id
temporário. Esse modo de exibição é usado nas consultas de log de eventos de exemplo incluídas neste artigo:
CREATE OR REPLACE TEMP VIEW latest_update AS
SELECT origin.update_id AS id
FROM event_log_raw
WHERE event_type = 'create_update'
ORDER BY timestamp DESC
LIMIT 1;
Você pode consultar o log de eventos em um bloco de anotações do Azure Databricks ou no editor SQL. Use um bloco de anotações ou o editor SQL para executar as consultas de log de eventos de exemplo.
Exemplo de blocos de anotações de código-fonte de pipeline para espaços de trabalho sem o Unity Catalog
Você pode importar os seguintes blocos de anotações para um espaço de trabalho do Azure Databricks sem o Unity Catalog habilitado e usá-los para implantar um pipeline de DLT. Importe o notebook do idioma escolhido e especifique o caminho no campo código-fonte ao configurar um pipeline com a opção de armazenamento do metastore do Hive . Veja Configurar um fluxo de dados de DLT.