Guida introduttiva: Creare un'area di lavoro di Azure Databricks nel proprio Rete virtuale
La distribuzione predefinita di Azure Databricks crea una nuova rete virtuale gestita da Databricks. Questo argomento di avvio rapido illustra come creare invece un'area di lavoro di Azure Databricks nella propria rete virtuale. All'interno di tale area di lavoro verrà anche creato un cluster Apache Spark.
Per altre informazioni sui motivi per cui scegliere di creare un'area di lavoro di Azure Databricks nella propria rete virtuale, vedere Distribuire Azure Databricks nella rete virtuale di Azure (VNet Injection).
Prerequisiti
Se non hai una sottoscrizione di Azure, crea un account gratuito. Questa esercitazione non può essere eseguita usando una sottoscrizione di valutazione gratuita di Azure. Se l'utente ha un account gratuito, andare al proprio profilo e modificare la sottoscrizione a con pagamento in base al consumo. Per altre informazioni, vedere Account gratuito di Azure. Quindi, rimuovere il limite di spesae richiedere un aumento della quota per le vCPU nell'area. Quando si crea l'area di lavoro di Azure Databricks, è possibile selezionare il piano tariffario Prova gratuita (Premium-14 giorni gratis) per consentire all'area di lavoro l'accesso a DBUs Premium di Azure Databricks gratuiti per 14 giorni.
È necessario essere un collaboratore o un proprietario di Azure oppure il provider di risorse Microsoft.ManagedIdentity deve essere registrato nella sottoscrizione. Per istruzioni, seguire Registrare il provider di risorse.
Accedere al portale di Azure
Accedere al portale di Azure.
Nota
Se si vuole creare un'area di lavoro di Azure Databricks nel cloud commerciale di Azure che contiene certificazioni di conformità al governo degli Stati Uniti, ad esempio FedRAMP High, contattare il team dell'account Microsoft o Databricks per ottenere l'accesso a questa esperienza.
Creare una rete virtuale
Nel menu del portale di Azure selezionare Crea una risorsa. Poi selezionare Rete > Rete virtuale.
In Crea rete virtuale applicare le impostazioni seguenti:
Impostazione Valore suggerito Descrizione Subscription <Sottoscrizione in uso> Selezionare la sottoscrizione di Azure da usare. Gruppo di risorse databricks-quickstart seleziona Crea nuovo e immetti un nuovo nome per il gruppo di risorse per l'account. Nome databricks-quickstart Selezionare un nome per la rete virtuale. Paese <Selezionare l'area più vicina agli utenti> Selezionare una posizione geografica in cui è possibile ospitare la rete virtuale. Usare la località più vicina agli utenti. Selezionare Avanti: Indirizzi IP > e applicare le impostazioni seguenti. Selezionare quindi Rivedi e crea.
Impostazione Valore suggerito Descrizione Spazio indirizzi IPv4 10.2.0.0/16 Intervallo di indirizzi della rete virtuale nella notazione CIDR. L'intervallo CIDR deve essere compreso tra /16 e /24 Nome della subnet impostazione predefinita Selezionare un nome per la subnet predefinita nella rete virtuale. Intervallo di indirizzi subnet 10.2.0.0/24 Intervallo di indirizzi della subnet nella notazione CIDR. Deve essere incluso nello spazio indirizzi della rete virtuale. Non è possibile modificare l'intervallo di indirizzi di una subnet in uso. Nella scheda Rivedi e crea, fare clic su Crea per distribuire la rete virtuale. Al termine della distribuzione, passare alla rete virtuale e selezionare Spazio indirizzi in impostazioni . Nella casella intitolata Aggiungi un intervallo di indirizzi aggiuntivo, inserire
10.179.0.0/16
e selezionare Salva.
Creare un'area di lavoro di Azure Databricks
Nel menu del portale di Azure selezionare Crea una risorsa. Seleziona quindi Analytics > Databricks.
In Servizio Azure Databricks applicare le impostazioni seguenti:
Impostazione Valore suggerito Descrizione Nome area di lavoro databricks-quickstart Selezionare un nome per l'area di lavoro di Azure Databricks. Subscription <Sottoscrizione in uso> Selezionare la sottoscrizione di Azure da usare. Gruppo di risorse databricks-quickstart Selezionare lo stesso gruppo di risorse usato per la rete virtuale. Ufficio <Selezionare l'area più vicina agli utenti> Scegliere la stessa località della rete virtuale. Piano tariffario Scegliere tra Standard e Premium. Per altre informazioni sui piani tariffari, vedere la pagina dei prezzi di Databricks. Dopo aver immesso le impostazioni nella pagina Impostazioni di base, selezionare Avanti: Rete > e applicare le impostazioni seguenti:
Impostazione Valore suggerito Descrizione Distribuire l'area di lavoro di Azure Databricks nella rete virtuale Sì Questa impostazione consente di distribuire un'area di lavoro di Azure Databricks nella rete virtuale. Rete virtuale databricks-quickstart Selezionare la rete virtuale creata nella sezione precedente. Nome subnet pubblica public-subnet Usare il nome predefinito della subnet pubblica. Intervallo CIDR della subnet pubblica 10.179.64.0/18 Usare un intervallo CIDR fino a /26 incluso. Nome subnet privata private-subnet Usare il nome predefinito della subnet privata. Intervallo CIDR della subnet privata 10.179.0.0/18 Usare un intervallo CIDR fino a /26 incluso. Al termine della distribuzione, passare alla risorsa Azure Databricks. Si noti che il peering di rete virtuale è disabilitato. Notare anche il gruppo di risorse e il gruppo di risorse gestite nella pagina di panoramica.
Il gruppo di risorse gestite non è modificabile e non viene usato per creare macchine virtuali. È possibile creare macchine virtuali solo nel gruppo di risorse che si gestisce.
Quando la distribuzione di un'area di lavoro non riesce, l'area di lavoro viene creata comunque anche se in uno stato di errore. Eliminare l'area di lavoro in errore e crearne una nuova per risolvere gli errori di distribuzione. Quando si elimina l'area di lavoro in errore, vengono eliminati anche il gruppo di risorse gestite e tutte le eventuali risorse distribuite correttamente.
Creare un cluster
Nota
Per usare un account gratuito per creare il cluster Azure Databricks, prima di creare il cluster, passare al profilo personale e impostare la sottoscrizione per il pagamento in base al consumo. Per altre informazioni, vedere Account gratuito di Azure.
Tornare al servizio Azure Databricks e selezionare Avvia area di lavoro nella pagina Panoramica.
Seleziona Cluster>+ Crea Cluster. Creare quindi un nome di cluster, ad esempio databricks-quickstart-cluster, e accettare le impostazioni predefinite rimanenti. Selezionare Crea cluster.
Quando il cluster è in esecuzione, tornare nel gruppo di risorse gestite nel portale di Azure. Notare le nuove macchine virtuali, i dischi, l'indirizzo IP e le interfacce di rete. Viene creata un'interfaccia di rete in ogni subnet pubblica e privata con indirizzi IP.
Tornare all'area di lavoro di Azure Databricks e selezionare il cluster creato. Passare quindi alla scheda Executor della pagina dell'interfaccia utente Spark. Notare che gli indirizzi del driver e degli executor rientrano nell'intervallo della subnet privata. In questo esempio l'indirizzo del driver è 10.179.0.6 e quelli degli executor sono 10.179.0.4 e 10.179.0.5. I propri indirizzi IP potrebbero essere diversi.
Pulire le risorse
Dopo aver finito l'articolo è possibile terminare il cluster. A tale scopo, dall’area di lavoro di Azure Databricks, nel riquadro a sinistra, selezionare Clusters. Per il cluster che desideri terminare, sposta il cursore sui puntini di tre sotto la colonna Azioni e seleziona l'icona Termina. Il cluster viene arrestato.
Se non viene terminato manualmente, il cluster si arresterà automaticamente se è stata selezionata la casella di controllo Terminate after __ minutes of inactivity (Termina dopo ___ minuti di attività) durante la creazione del cluster. In tal caso, il cluster viene automaticamente arrestato se è rimasto inattivo per il tempo specificato.
Se non si vuole riusare il cluster, è possibile eliminare il gruppo di risorse creato nel portale di Azure.
Passaggi successivi
In questo articolo è stato creato un cluster Spark in Azure Databricks, che è stato distribuito in una rete virtuale. Passare all'articolo successivo per informazioni su come eseguire una query su un contenitore Docker Linux di SQL Server nella rete virtuale usando JDBC da un notebook di Azure Databricks.