Habilite o suporte de firewall para sua conta de armazenamento de espaço de trabalho
Cada espaço de trabalho do Azure Databricks tem uma conta de armazenamento do Azure associada em um grupo de recursos gerenciado conhecido como conta de armazenamento do espaço de trabalho. A conta de armazenamento do espaço de trabalho inclui dados do sistema do espaço de trabalho (saída do trabalho, configurações do sistema e logs), raiz do DBFS e, em alguns casos, um catálogo do espaço de trabalho do Catálogo Unity. Este artigo descreve como limitar o acesso à sua conta de armazenamento de espaço de trabalho apenas de recursos e redes autorizados usando um modelo ARM (Azure Resource Manager).
O que é o suporte de firewall para sua conta de armazenamento de espaço de trabalho?
Por padrão, a conta de armazenamento do Azure para sua conta de armazenamento de espaço de trabalho aceita conexões autenticadas de todas as redes. Você pode limitar esse acesso ativando o suporte de firewall para sua conta de armazenamento de espaço de trabalho. Isso garante que o acesso à rede pública não seja permitido e que a conta de armazenamento do espaço de trabalho não seja acessível a partir de redes não autorizadas. Talvez você queira configurar isso se sua organização tiver políticas do Azure que garantam que as contas de armazenamento sejam privadas.
Quando o suporte de firewall para sua conta de armazenamento de espaço de trabalho está habilitado, todo o acesso de serviços fora do Azure Databricks deve usar pontos de extremidade privados aprovados com o Private Link. O Azure Databricks cria um conector de acesso para se conectar ao armazenamento usando uma identidade gerenciada do Azure. O acesso a partir da computação sem servidor do Azure Databricks deve usar pontos de extremidade de serviço ou pontos de extremidade privados.
Requisitos
Seu espaço de trabalho deve habilitar a injeção de VNet para conexões do plano de computação clássico.
Seu espaço de trabalho deve habilitar a conectividade de cluster segura (Sem IP Público/NPIP) para conexões do plano de computação clássico.
Seu espaço de trabalho deve estar no plano Premium.
Você deve ter uma sub-rede separada para os pontos de extremidade privados da conta de armazenamento. Isso se soma às duas principais sub-redes para a funcionalidade básica do Azure Databricks.
A sub-rede deve estar na mesma VNet que o espaço de trabalho ou em uma VNet separada que o espaço de trabalho possa acessar. Use o tamanho
/28
mínimo na notação CIDR.Se você estiver usando o Cloud Fetch com o serviço Microsoft Fabric Power BI, sempre deverá usar um gateway para acesso privado à conta de armazenamento do espaço de trabalho ou desabilitar o Cloud Fetch. Consulte Etapa 2 (recomendada): Configurar pontos de extremidade privados para VNets de cliente do Cloud Fetch.
Você também pode usar o modelo ARM em Etapa 5: implantar o modelo ARM necessário para criar um novo espaço de trabalho. Nesse caso, desligue toda a computação em seu espaço de trabalho antes de seguir as etapas 1 a 4.
Etapa 1: Criar pontos de extremidade privados para a conta de armazenamento
Crie dois pontos de extremidade privados para sua conta de armazenamento de espaço de trabalho a partir de sua VNet que você usou para injeção de VNet para os valores de subrecurso de destino: dfs
e blob
.
No portal do Azure, navegue até seu espaço de trabalho.
Em Essentials, clique no nome do Grupo de Recursos Geridos.
Em Recursos, clique no recurso do tipo Conta de armazenamento que tem um nome que começa com
dbstorage
.Na barra lateral, clique em Rede.
Clique em Conexões de ponto de extremidade privadas.
Clique em + Ponto de extremidade privado.
No campo Nome do Grupo de Recursos, defina o grupo de recursos.
Importante
O grupo de recursos não deve ser o mesmo que o grupo de recursos gerenciados no qual sua conta de armazenamento de espaço de trabalho está.
No campo Nome, digite um nome exclusivo para este ponto de extremidade privado:
- Para o primeiro ponto de extremidade privado criado para cada rede de origem, crie um ponto de extremidade DFS. Databricks recomenda que você adicione o sufixo
-dfs-pe
- Para o segundo ponto de extremidade privado criado para cada rede de origem, crie um ponto de extremidade de Blob. Databricks recomenda que você adicione o sufixo
-blob-pe
O campo Nome da Interface de Rede é preenchido automaticamente.
- Para o primeiro ponto de extremidade privado criado para cada rede de origem, crie um ponto de extremidade DFS. Databricks recomenda que você adicione o sufixo
Defina o campo Região como a região do seu espaço de trabalho.
Clique em Next.
Em Subrecurso de destino, clique no tipo de recurso de destino.
- Para o primeiro ponto de extremidade privado criado para cada rede de origem, defina-o como dfs.
- Para o segundo ponto de extremidade privado criado para cada rede de origem, defina-o como blob.
No campo Rede virtual, selecione uma rede virtual.
No campo sub-rede, defina a sub-rede como a sub-rede separada que você tem para os pontos de extremidade privados da conta de armazenamento.
Esse campo pode ser preenchido automaticamente com a sub-rede para seus pontos de extremidade privados, mas talvez seja necessário defini-lo explicitamente. Não é possível usar uma das duas sub-redes de espaço de trabalho usadas para a funcionalidade básica do espaço de trabalho do Azure Databricks, que normalmente são chamadas
private-subnet
depublic-subnet
.Clique em Next. A guia DNS é preenchida automaticamente para a assinatura correta e o grupo de recursos que você selecionou anteriormente. Altere-os, se necessário.
Clique em Avançar e adicione tags, se desejar.
Clique em Avançar e revise os campos.
Clique em Criar.
Para desativar o suporte de firewall para sua conta de armazenamento de espaço de trabalho, use o mesmo processo acima, mas defina o parâmetro Storage Account Firewall (storageAccountFirewall
no modelo) como Disabled
e defina o Workspace Catalog Enabled
campo como true
ou false
com base em se seu espaço de trabalho usa um catálogo de espaço de trabalho do Catálogo Unity. Consulte O que são catálogos no Azure Databricks?.
Etapa 2 (recomendada): Configurar pontos de extremidade privados para VNets de cliente do Cloud Fetch
O Cloud Fetch é um mecanismo em ODBC e JDBC para buscar dados em paralelo através do armazenamento em nuvem para trazer os dados mais rapidamente para as ferramentas de BI. Se você estiver buscando resultados de consulta maiores que 1 MB de ferramentas de BI, provavelmente está usando o Cloud Fetch.
Nota
Se você estiver usando o serviço Microsoft Fabric Power BI com o Azure Databricks, deverá desabilitar o Cloud Fetch, pois esse recurso bloqueia o acesso direto à conta de armazenamento do espaço de trabalho do Power BI de malha. Como alternativa, você pode configurar um gateway de dados de rede virtual ou gateway de dados local para permitir acesso privado à conta de armazenamento do espaço de trabalho. Isso não se aplica ao Power BI desktop. Para desativar o Cloud Fetch, use a configuração EnableQueryResultDownload=0
.
Se você usa o Cloud Fetch, crie pontos de extremidade privados para a conta de armazenamento do espaço de trabalho a partir de qualquer VNets de seus clientes do Cloud Fetch.
Para cada rede de origem para clientes do Cloud Fetch, crie dois pontos de extremidade privados que usam dois valores diferentes de subrecurso de destino: dfs
e blob
. Consulte a Etapa 1: Criar pontos de extremidade privados para a conta de armazenamento para obter etapas detalhadas. Nessas etapas, para o campo Rede virtual ao criar o ponto de extremidade privado, certifique-se de especificar sua VNet de origem para cada cliente Cloud Fetch.
Etapa 3: Confirmar aprovações de endpoint
Depois de criar todos os seus endpoints privados para a conta de armazenamento, verifique se eles foram aprovados. Eles podem ser aprovados automaticamente ou talvez seja necessário aprová-los na conta de armazenamento.
- Navegue até seu espaço de trabalho no portal do Azure.
- Em Essentials, clique no nome do Grupo de Recursos Geridos.
- Em Recursos, clique no recurso do tipo Conta de armazenamento que tem um nome que começa com
dbstorage
. - Na barra lateral, clique em Rede.
- Clique em Conexões de ponto de extremidade privadas.
- Verifique o estado da Conexão para confirmar que eles dizem Aprovado ou selecione-os e clique em Aprovar.
Etapa 4: Autorizar conexões de computação sem servidor
Você deve autorizar a computação sem servidor a se conectar à sua conta de armazenamento do espaço de trabalho anexando uma configuração de conectividade de rede (NCC) ao seu espaço de trabalho. Quando um NCC é anexado a um espaço de trabalho, as regras de rede são adicionadas automaticamente à conta de armazenamento do Azure para a conta de armazenamento do espaço de trabalho. Para obter instruções, consulte Configurar um firewall para acesso de computação sem servidor.
Se você quiser habilitar o acesso da computação sem servidor do Azure Databricks usando pontos de extremidade privados, entre em contato com sua equipe de conta do Azure Databricks.
Etapa 5: Implantar o modelo ARM necessário
Esta etapa usa um modelo ARM para gerenciar o espaço de trabalho do Azure Databricks. Você também pode atualizar ou criar seu espaço de trabalho usando o Terraform. Consulte o provedor azurerm_databricks_workspace Terraform.
No portal do Azure, procure e selecione
Deploy a custom template
.Clique em Criar seu próprio modelo no editor.
Copie o modelo ARM do modelo ARM para suporte de firewall para sua conta de armazenamento de espaço de trabalho e cole-o no editor.
Clique em Guardar.
Revise e edite campos. Use os mesmos parâmetros que você usou para criar o espaço de trabalho, como assinatura, região, nome do espaço de trabalho, nomes de sub-rede, ID do recurso da rede virtual existente.
Para obter uma descrição dos campos, consulte Campos de modelo ARM.
Clique em Rever e Criar e, em seguida, em Criar.
Nota
O acesso à rede pública em sua conta de armazenamento de espaço de trabalho é definido como Habilitado a partir de redes virtuais e endereços IP selecionados e não como Desabilitado para oferecer suporte a recursos de computação sem servidor sem a necessidade de pontos de extremidade privados. A conta de armazenamento do espaço de trabalho está em um grupo de recursos gerenciado e o firewall de armazenamento só pode ser atualizado quando você adiciona uma configuração de conectividade de rede (NCC) para conexões sem servidor ao seu espaço de trabalho. Se você quiser habilitar o acesso da computação sem servidor do Azure Databricks usando pontos de extremidade privados, entre em contato com sua equipe de conta do Azure Databricks.