Usar pipelines do Delta Live Tables com o metastore herdado do Hive
Este artigo detalha as configurações e advertências específicas dos pipelines do Delta Live Tables configurados para publicar dados no metastore herdado do Hive. O Databricks recomenda usar o Catálogo do Unity para todos os novos pipelines. Consulte Usar o Catálogo do Unity com seus pipelines das Tabelas Dinâmicas do Delta.
Publicar conjuntos de dados de pipeline no metastore herdado do Hive
Embora seja opcional, você deve especificar um destino para publicar tabelas criadas pelo pipeline sempre que for além do desenvolvimento e do teste para um novo pipeline. A publicação de um pipeline em um destino disponibiliza conjuntos de dados para consulta em outro lugar em seu ambiente do Azure Databricks.
Você pode tornar os dados de saída do seu pipeline detectáveis e disponíveis para consulta publicando conjuntos de dados no metastore do Hive. Para publicar conjuntos de dados no metastore, insira um nome de esquema no campo Destino quando você criar um pipeline. Também é possível adicionar um banco de dados de destino a um pipeline existente.
Todas as tabelas e exibições criadas no Delta Live Tables são locais no seu pipeline por padrão. Você deve publicar tabelas em um esquema de destino para consultar ou usar conjuntos de dados do Delta Live Tables fora do pipeline no qual elas foram declaradas.
Para publicar tabelas de seus pipelines no Catálogo Unity, consulte Usar o Catálogo Unity com seus pipelines do Delta Live Tables..
Como publicar conjuntos de dados do Delta Live Tables no metastore herdado do Hive
É possível declarar um esquema de destino para todas as tabelas no seu pipeline do Delta Live Tables usando o campo Esquema de Destino nas interfaces de usuário Configurações do Pipeline e Criar pipeline.
Também é possível especificar um esquema em uma configuração JSON, definindo o valor target
.
É necessário executar uma atualização para que o pipeline publique os resultados no esquema de destino.
Você pode usar esse recurso com várias configurações de ambiente para publicar em diferentes esquemas com base em um ambiente. Por exemplo, você pode publicar em um esquema dev
para desenvolvimento e em um esquema prod
para dados de produção.
Como consultar tabelas de streaming e exibições materializadas no metastore herdado do Hive
Após a conclusão de uma atualização, você pode exibir o esquema e as tabelas, consultar os dados ou usá-los em aplicativos downstream.
Uma vez publicadas, as tabelas Delta Live Tables podem ser consultadas em qualquer ambiente com acesso ao esquema de destino. Isso inclui o Databricks SQL, notebooks e outros pipelines do Delta Live Tables.
Importante
Quando você cria uma configuração target
, somente as tabelas e os metadados associados são publicados. As exibições não são publicadas no metastore.
Especificar um local de armazenamento
Você pode especificar um local de armazenamento para um pipeline que publica no metastore do Hive. A principal motivação para especificar um local é controlar o local de armazenamento de objetos para dados gravados pelo pipeline.
Como todas as tabelas, dados, pontos de verificação e metadados para pipelines do Delta Live Tables são totalmente gerenciados pelo Delta Live Tables, a maior parte da interação com conjuntos de dados do Delta Live Tables ocorre por meio de tabelas registradas no metastore do Hive ou no Catálogo do Unity.
Configuração de armazenamento em nuvem
Para acessar o armazenamento do Azure, você deve configurar os parâmetros necessários, incluindo tokens de acesso, usando configurações spark.conf
em suas configurações de cluster. Para obter um exemplo de como configurar o acesso a uma conta de armazenamento do Azure Data Lake Storage Gen2 (ADLS Gen2), confira Acessar com segurança credenciais de armazenamento com segredos em um pipeline.