Início Rápido: crie um workspace do Azure Databricks em sua própria Rede Virtual
A implantação padrão do Azure Databricks cria uma rede virtual gerenciada pelo Databricks. Este início rápido mostra como criar um workspace do Azure Databricks em sua rede virtual. Você também cria um cluster do Apache Spark dentro desse workspace.
Para obter mais informações sobre por que você pode optar por criar um workspace do Azure Databricks em sua rede virtual, confira Implantar o Azure Databricks em sua Rede Virtual do Azure (Injeção de VNet).
Pré-requisitos
Se você não tiver uma assinatura do Azure, crie uma conta gratuita. Este tutorial não pode ser realizado usando uma Assinatura de avaliação gratuita do Azure. Se você tiver uma conta gratuita, acesse seu perfil e altere para uma assinatura pré-paga. Para saber mais, confira Conta gratuita do Azure. Em seguida, remova o limite de gastos e solicite um aumento de cota para as vCPUs da sua região. Quando você cria seu espaço de trabalho do Azure Databricks, pode selecionar o tipo de preço Versão de avaliação (Premium - DBUs gratuitas por 14 dias) para conceder ao espaço de trabalho acesso gratuito aos DBUs do Premium Azure Databricks por 14 dias.
Você deve ser um Colaborador ou Proprietário do Azure ou o provedor de recursos Microsoft.ManagedIdentity deve estar registrado em sua assinatura. Para obter instruções, veja Registrar provedor de recursos.
Entre no Portal do Azure
Entre no portal do Azure.
Observação
Se você quiser criar um workspace do Azure Databricks na Nuvem Comercial do Azure que contém certificações de conformidade do governo dos EUA, como FedRAMP High, entre em contato com sua equipe de conta da Microsoft ou do Databricks para obter acesso a essa experiência.
Criar uma rede virtual
No menu do portal do Azure, selecione Criar um recurso. Em seguida, selecione Rede > Rede virtual.
Em Criar rede virtual, aplique as seguintes configurações:
Configuração Valor sugerido Descrição Subscription <Sua assinatura> Selecione a assinatura do Azure que você deseja usar. Grupo de recursos databricks-quickstart Selecione Criar e insira um novo nome de grupo de recursos para sua conta. Nome databricks-quickstart Selecione um nome para sua rede virtual. Região <Selecione a região mais próxima de seus usuários> Selecione uma localização geográfica na qual você possa hospedar a rede virtual. Use a localização mais próxima dos usuários. Selecione Avançar: Endereços IP > e aplique as configurações a seguir. Em seguida, selecione Examinar + criar.
Configuração Valor sugerido Descrição Espaço de endereço IPv4 10.2.0.0/16 O intervalo de endereços da rede virtual em notação CIDR. O intervalo CIDR deve estar entre /16 e /24 Nome da sub-rede padrão Selecione um nome para a sub-rede padrão em sua rede virtual. Intervalo de endereços da sub-rede 10.2.0.0/24 O intervalo de endereços da sub-rede na notação CIDR. Ele deve estar contido no espaço de endereço da rede virtual. O intervalo de endereços de uma sub-rede que está em uso não pode ser editado. Na guia Examinar + criar, selecione Criar para implantar a rede virtual. Depois que a implantação for concluída, navegue até sua rede virtual e selecione Espaço de endereço em Configurações. Na caixa que diz Adicionar um intervalo de endereços adicional, insira
10.179.0.0/16
e selecione Salvar.
Criar um workspace do Azure Databricks
No menu do portal do Azure, selecione Criar um recurso. Em seguida, selecione Análise > Databricks.
Em Serviço do Azure Databricks, aplique as seguintes configurações:
Configuração Valor sugerido Descrição Nome do workspace databricks-quickstart Selecione um nome para seu workspace do Azure Databricks. Subscription <Sua assinatura> Selecione a assinatura do Azure que você deseja usar. Grupo de recursos databricks-quickstart Selecione o mesmo grupo de recursos que você usou para a rede virtual. Location <Selecione a região mais próxima de seus usuários> Escolha o mesmo local da sua rede virtual. Tipo de preço Escolha entre Standard ou Premium. Para obter mais informações sobre tipos de preço, confira a página de preços do Databricks. Depois de terminar de inserir as configurações na página Noções básicas, selecione Avançar: rede > e aplicar as seguintes configurações:
Configuração Valor sugerido Descrição Implantar o workspace do Azure Databricks em sua VNet (Rede Virtual) Sim Essa configuração permite que você implante um workspace do Azure Databricks em sua rede virtual. Rede Virtual databricks-quickstart Selecione a rede virtual que você criou na seção anterior. Nome da Sub-rede Pública public-subnet Use o nome da sub-rede pública padrão. Intervalo de CIDR de Sub-rede Pública 10.179.64.0/18 Use um intervalo CIDR até e inclusive /26. Nome da Sub-rede Privada private-subnet Use o nome da sub-rede privada padrão. Intervalo de CIDR da Sub-rede Privada 10.179.0.0/18 Use um intervalo CIDR até e inclusive /26. Quando a implantação for concluída, navegue até o recurso do Azure Databricks. Observe que o emparelhamento de rede virtual está desabilitado. Observe também o grupo de recursos e o grupo de recursos gerenciados na página de visão geral.
O grupo de recursos gerenciados não é modificável nem é usado para criar máquinas virtuais. Você só pode criar máquinas virtuais no grupo de recursos que gerencia.
Quando a implantação de um workspace falha, ele ainda é criado com estado de falha. Exclua o workspace com falha e crie um que resolva os erros de implantação. Quando você exclui o workspace com falha, o grupo de recursos gerenciado e todos os recursos implantados com êxito também são excluídos.
Criar um cluster
Observação
Para usar uma conta gratuita para criar o cluster do Azure Databricks, antes de criar o cluster, vá até o seu perfil e altere sua assinatura para pré-pago. Para saber mais, confira Conta gratuita do Azure.
Volte para o serviço do Azure Databricks e selecione Iniciar Workspace na página Visão Geral.
Selecione Clusters>+ Criar Cluster. Em seguida, crie um nome para o cluster, como databricks-quickstart-cluster, e aceite as configurações padrão restantes. Selecione Criar Cluster.
Depois que o cluster estiver em execução, retorne ao grupo de recursos gerenciados no portal do Azure. Observe as novas máquinas virtuais, discos, Endereço IP e adaptadores de rede. Um adaptador de rede é criado em cada uma das sub-redes públicas e privadas com endereços IP.
Volte para o workspace do Azure Databricks e selecione o cluster criado. Em seguida, navegue até a guia Executores na página Interface do Usuário do Spark. Observe que os endereços para o driver e os executores estão no intervalo de sub-rede privada. Neste exemplo, o driver é 10.179.0.6 e os executores são 10.179.0.4 e 10.179.0.5. Seus endereços IP podem ser diferentes.
Limpar os recursos
Depois de terminar o artigo, você poderá encerrar o cluster. Para isso, no workspace do Azure Databricks, no painel esquerdo, selecione Clusters. No cluster que deseja encerrar, mova o cursor sobre o botão de reticências na coluna Ações e selecione o ícone Terminar. Isso interrompe o cluster.
Se você não encerrar o cluster manualmente, ele será interrompido automaticamente, desde que você tenha selecionado a caixa de seleção Terminar depois de __ minutos de inatividade ao criar o cluster. Nesse caso, o cluster é interrompido automaticamente se ficar inativo durante o tempo especificado.
Se você não quiser reutilizar o cluster, poderá excluir o grupo de recursos que você criou no portal do Azure.
Próximas etapas
Neste artigo, você criou um cluster Spark no Azure Databricks implantado em uma rede virtual. Avance para o próximo artigo para saber como consultar um contêiner do Docker do SQL Server Linux na rede virtual usando o JDBC de um notebook do Azure Databricks.