Partilhar via


Criar e trabalhar com tabelas de saída no Databricks Clean Rooms

Importante

Esta funcionalidade está em Pré-visualização Pública.

Este artigo apresenta tabelas de saída, que são tabelas temporárias somente leitura geradas por uma execução de bloco de anotações e compartilhadas com o metastore Unity Catalog do corredor de bloco de anotações. Este artigo descreve como usar um bloco de anotações para criar tabelas de saída e como os colaboradores podem ler essas tabelas de saída em seu metastore do Catálogo Unity.

Visão geral das tabelas de saída

As tabelas de saída permitem que você salve temporariamente a saída de blocos de anotações que são executados em uma sala limpa em um catálogo de saída no metastore do Catálogo Unity, onde você pode disponibilizar os dados para membros da sua equipe que não têm a capacidade de executar os próprios blocos de anotações. Você também pode usar trabalhos do Azure Databricks para executar blocos de anotações e executar tarefas em tabelas de saída. Combinadas com o tipo de tarefa de bloco de anotações de sala limpa e suporte para valores de tarefas, as tabelas de saída permitem criar fluxos de trabalho complexos que dependem de blocos de anotações de sala limpa.

As tabelas de saída são somente leitura.

Somente a entidade de segurança específica (usuário, grupo ou entidade de serviço) que executa o bloco de anotações tem acesso de leitura padrão à tabela de saída. Não há acesso de gravação. Um administrador de metastore pode conceder acesso de leitura a outras entidades em sua conta do Azure Databricks, usando privilégios padrão do Catálogo Unity.

As tabelas de saída são armazenadas por 30 dias no local de armazenamento padrão da sala limpa central e compartilhadas com o metastore do colaborador usando o Delta Sharing. Se quiser manter uma tabela de saída por mais de 30 dias, copie-a para o armazenamento local.

Cada execução de bloco de anotações cria um novo esquema no catálogo de saída. Novas execuções não podem acrescentar uma tabela de saída existente.

Importante

As tabelas de saída são suportadas apenas quando a sala limpa central está hospedada na AWS. No entanto, os colaboradores do Databricks nas três nuvens — AWS, Azure e Google Cloud — podem compartilhar blocos de anotações que criam tabelas de saída e podem ler tabelas de saída geradas quando executam blocos de anotações compartilhados. Os colaboradores do Google Cloud devem ser participantes da visualização privada das Salas Limpas.

Criar uma tabela de saída

Para criar uma tabela de saída, use os parâmetros cr_output_catalog e cr_output_schema no namespace da tabela de três partes. Cada execução do bloco de anotações produz um novo esquema.

No exemplo a seguir, a célula do bloco de anotações cria uma tabela de saída chamada overlapping_users no catálogo de saída do collborator que lista os usuários cujo endereço de e-mail aparece nas collaborator.advertiser.profiles tabelas e creator.publisher.profiles .

CREATE TABLE identifier(:cr_output_catalog || '.' || :cr_output_schema || '.overlapping_users') AS
SELECT collab_profiles.*
FROM collaborator.advertiser.profiles AS collab_profiles
JOIN creator.publisher.profiles AS creator_profiles
ON collab_profiles.email = creator_profiles.email

Ler uma tabela de saída

As tabelas de saída aparecem em um catálogo compartilhado no metastore do corredor do bloco de anotações. No painel Catálogo do Gerenciador de Catálogos , eles aparecem na lista Catálogos compartilhados .

Ler uma tabela de saída é como ler qualquer outra tabela no Unity Catalog. Você deve ter SELECT na mesa, USE CATALOG no catálogo de saída compartilhado e USE SCHEMA no esquema gerado automaticamente. O usuário que executou o bloco de anotações que criou a tabela tem essas permissões por padrão.

Antes de começar

Esta seção descreve os requisitos de nuvem, configuração e computação para ler tabelas de saída.

Requisitos da nuvem

Embora a sala limpa central deva estar na AWS para oferecer suporte a tabelas de saída, os espaços de trabalho dos colaboradores podem estar em qualquer uma das três nuvens: AWS, Azure ou Google Cloud. Os colaboradores do Google Cloud devem ser participantes da visualização privada das Salas Limpas.

Requisito de catálogo de saída compartilhada

Antes de ler as tabelas de saída, um usuário deve criar o catálogo que as contém. Você só precisa fazer isso uma vez por quarto limpo.

Permissões necessárias: EXECUTE_CLEAN_ROOM_TASK

  1. No seu espaço de trabalho do Azure Databricks, clique em Ícone do catálogo Catálogo.
  2. Na página Acesso rápido, clique no botão Salas > limpas.
  3. Selecione a sala limpa na lista.
  4. No painel direito, em Saída, clique em Criar catálogo.
  5. Insira um nome de catálogo de saída ou aceite o padrão, que é <clean-room-name>_output.

O catálogo de saída aparece na lista de catálogos compartilhados no painel Catálogo do Gerenciador de Catálogos. Cada sala limpa da qual você participa pode ter um catálogo de saída compartilhado em seu metastore.

Requisitos de computação

As consultas em tabelas de saída exigem computação sem servidor. Consulte Conectar-se à computação sem servidor.

Permissões necessárias para ler uma tabela de saída

O usuário que executou o bloco de anotações que criou a tabela de saída tem permissão para ler a partir da tabela de saída por padrão. Todos os outros usuários devem ter as seguintes permissões concedidas a eles:

  • SELECT em cima da mesa
  • USE CATALOG no catálogo de saída
  • USE SCHEMA no esquema de saída

Executar o bloco de notas

Para gerar tabelas de saída compartilhadas em seu catálogo de saída, um usuário com acesso à sala limpa deve executar o bloco de anotações. Consulte Executar blocos de notas em salas limpas. Cada execução de bloco de anotações cria um novo esquema de saída e uma nova tabela.

Gorjeta

Você pode usar trabalhos do Azure Databricks para executar blocos de anotações e executar tarefas em tabelas de saída, permitindo fluxos de trabalho complexos. Consulte Usar fluxos de trabalho do Azure Databricks para executar blocos de anotações de sala limpa.

Localizar e visualizar uma tabela de saída

O usuário que executa o bloco de anotações que cria a tabela de saída pode encontrar um link para a tabela de saída no histórico de execução do bloco de anotações e executar páginas de detalhes na interface do usuário de Salas Limpas. Em ambos os casos, o link está no campo Esquema de saída. Consulte Monitorar execuções de bloco de anotações de sala limpa.

Histórico de execução:

Link do esquema de saída no histórico de execução

Detalhes da execução:

Link do esquema de saída em detalhes de execução

Você também pode encontrar o catálogo de saída na lista de catálogos compartilhados no painel Catálogo do Gerenciador de Catálogos.

Limitações

Além dos requisitos listados em Visão geral das tabelas de saída e Antes de começar, as tabelas de saída têm as seguintes limitações:

  • As tabelas de saída são suportadas somente quando a sala limpa central está hospedada na AWS e quando a sala limpa foi criada após o lançamento do recurso de tabela de saída.
  • Apenas tabelas são suportadas. Volumes e visualizações, por exemplo, não são.
  • Você pode criar até 100 tabelas de saída por notebook.