O que é o Azure Databricks Clean Rooms?
Este artigo apresenta as Salas Limpas, um recurso do Azure Databricks que usa o Compartilhamento Delta e a computação sem servidor para fornecer um ambiente seguro e de proteção de privacidade onde várias partes podem trabalhar juntas em dados corporativos confidenciais sem acesso direto aos dados uns dos outros.
Requisitos
Para ser elegível para usar salas limpas, você deve ter:
- Uma conta habilitada para computação sem servidor. Consulte Ativar computação sem servidor.
- Um espaço de trabalho habilitado para o Unity Catalog. Consulte Habilitar um espaço de trabalho para o Unity Catalog.
- Delta Sharing ativado para o seu metastore do Unity Catalog. Consulte Ativar a partilha delta num metastore.
Como funciona o Clean Rooms?
Ao criar uma sala limpa, você cria o seguinte:
- Um objeto de sala limpa protegível em seu metastore do Unity Catalog.
- A sala limpa "central", que é um ambiente efêmero isolado gerenciado pela Databricks.
- Um objeto de sala limpa protegível no metastore do Unity Catalog do seu colaborador.
Tabelas, volumes (dados não tabulares), exibições e blocos de anotações que qualquer colaborador compartilha na sala limpa são compartilhados apenas com a sala limpa central, usando o Delta Sharing.
Os colaboradores não podem ver os dados em tabelas, exibições ou volumes de outros colaboradores, mas podem ver nomes de colunas e tipos de colunas e executar um código de bloco de anotações aprovado que opera sobre os ativos de dados. O código do notebook é executado na sala limpa central. Notebooks também podem gerar tabelas de saída que permitem aos seus colaboradores salvar temporariamente a saída somente leitura no metastore do Unity Catalog para que possam trabalhar com ela nos seus espaços de trabalho.
Como é que as Salas Limpas garantem um ambiente sem confiança?
O modelo Databricks Clean Rooms é "sem confiança". Todos os colaboradores em uma sala limpa sem confiança têm privilégios iguais, incluindo o criador da sala limpa. Salas limpas é projetado para impedir a execução de código não autorizado e o compartilhamento não autorizado de dados. Por exemplo, todos os colaboradores devem aprovar um bloco de anotações antes que ele possa ser executado. Essa confiança é implicitamente implicitamente impedindo que um colaborador execute qualquer bloco de anotações que ele mesmo tenha criado: você só pode executar um bloco de anotações criado pelo outro colaborador.
Salvaguardas ou restrições adicionais
Para além do processo implícito de aprovação de computadores portáteis, existem as seguintes salvaguardas:
Depois que uma sala limpa é criada, ela é bloqueada para impedir que novos colaboradores entrem na sala limpa.
Se algum colaborador excluir a sala limpa, a sala limpa central será anulada e nenhuma tarefa de sala limpa poderá ser executada por qualquer usuário.
Durante a pré-visualização pública, cada sala limpa é limitada a dois colaboradores.
Você não pode renomear a sala limpa.
O nome da sala limpa deve ser único no metastore de cada colaborador, para que todos os colaboradores possam se referir à mesma sala limpa de forma inequívoca.
Os comentários sobre a sala limpa protegível no espaço de trabalho de cada colaborador não são propagados para outros colaboradores.
O que é partilhado com outros colaboradores?
- Nome da sala limpa.
- Nuvem e região da sala limpa central.
- O nome da sua organização (que pode ser qualquer nome que escolher).
- Seu identificador de compartilhamento de sala limpa (ID de metastore global + ID do espaço de trabalho + endereço de e-mail do usuário).
- Aliases de tabelas, visões ou volumes partilhados.
- Metadados da coluna (nome ou alias da coluna e tipo).
- Blocos de notas (só de leitura).
- Tabelas de saída (somente leitura, temporária).
- Mesa do sistema de eventos de sala limpa.
- Histórico de execução, incluindo:
- O nome do bloco de notas que está a ser executado
- Colaborador que executou o bloco de anotações (não usuário).
- O estado da execução do bloco de anotações.
- A hora de início da execução do bloco de anotações.
O que é compartilhado com a sala limpa central?
Tudo o que está listado na seção anterior.
Tabelas, volumes, visualizações e blocos de notas em modo só de leitura.
Tabelas, visualizações e volumes são registrados no metastore da sala limpa central com todos os aliases fornecidos. Os ativos de dados são compartilhados durante todo o ciclo de vida da sala limpa.
FAQ Salas Limpas
Seguem-se perguntas frequentes sobre salas limpas (cleanrooms).
Como meus dados são gerenciados em uma sala limpa?
A sala limpa central é gerenciada pelo Azure Databricks. Na sala limpa central:
- Nenhuma das partes tem privilégios de administrador.
- Apenas os metadados são visíveis para todas as partes.
- Cada parte pode adicionar dados à sala limpa central.
- As salas limpas usam o Delta Sharing para compartilhar dados com segurança na sala limpa, mas não entre os participantes. Veja O que é Delta Sharing?.
Como é que os meus dados são mantidos privados?
As salas limpas centrais são executadas em um plano de computação sem servidor isolado gerenciado pelo Databricks hospedado em uma região de provedor de nuvem escolhida pelo criador da sala limpa.
Os quartos limpos oferecem:
- Aprovação de código: O criador da sala limpa e os colaboradores podem compartilhar tabelas e volumes com a sala limpa central, mas só podem executar blocos de anotações carregados pela outra parte. Você pode revisar o código adicionado pela outra parte antes de aprovar. Se você executar um bloco de anotações adicionado por outra parte, aprovará implicitamente o código.
- Controle de versão: Os notebooks de salas limpas têm controle de versão para garantir que todas as partes só possam executar notebooks totalmente aprovados. Apenas a versão mais recente de um bloco de notas pode ser executada. Você pode usar a tabela do sistema de salas limpas para ver qual versão do bloco de anotações foi executada e monitorar quaisquer alterações feitas.
- Acesso restrito: Ao criar uma sala limpa, você pode usar o controle de saída sem servidor para gerenciar conexões de rede de saída. Se restringir o acesso desde a sua sala limpa, o acesso ao armazenamento não autorizado será bloqueado. Consulte O que é o controle de saída sem servidor?.
Para saber mais sobre segurança e a rede do plano de computação sem servidor, consulte .
Como são registadas as ações?
As ações de sala limpa tomadas por você ou seus colaboradores são registradas na tabela do sistema de eventos de sala limpa. Esses registros incluem metadados detalhados sobre a ação específica tomada. Consulte a tabela de referência do sistema de eventos da sala limpa .
As ações de sala limpa também são registadas no log de auditoria da sua conta no serviço nº clean-room
. Consulte Referência da tabela do sistema de log de auditoria.
Limitações
Durante a pré-visualização pública, aplicam-se as seguintes limitações:
- Nenhuma credencial de serviço Bibliotecas Scala incluídas na versão necessária do Databricks Runtime.
Quotas de recursos
O Azure Databricks impõe cotas de recursos em todos os objetos protegíveis de Sala Limpa. Essas cotas estão listadas em Limites de recursos. Se você espera exceder esses limites de recursos, entre em contato com sua equipe de conta do Azure Databricks.
Você pode monitorar o uso da cota usando as APIs de cotas de recursos do Unity Catalog. Consulte Monitorize o seu uso dos limites de recursos do Catálogo Unity.