Condividi tramite


Guida introduttiva: Creare un'area di lavoro di Azure Databricks nel proprio Rete virtuale

La distribuzione predefinita di Azure Databricks crea una nuova rete virtuale gestita da Databricks. Questo argomento di avvio rapido illustra come creare invece un'area di lavoro di Azure Databricks nella propria rete virtuale. All'interno di tale area di lavoro verrà anche creato un cluster Apache Spark.

Per altre informazioni sui motivi per cui scegliere di creare un'area di lavoro di Azure Databricks nella propria rete virtuale, vedere Distribuire Azure Databricks nella rete virtuale di Azure (VNet Injection).

Prerequisiti

  • Se non hai una sottoscrizione di Azure, crea un account gratuito. Questa esercitazione non può essere eseguita usando una sottoscrizione di valutazione gratuita di Azure. Se l'utente ha un account gratuito, andare al proprio profilo e modificare la sottoscrizione a con pagamento in base al consumo. Per altre informazioni, vedere Account gratuito di Azure. Quindi, rimuovere il limite di spesae richiedere un aumento della quota per le vCPU nell'area. Quando si crea l'area di lavoro di Azure Databricks, è possibile selezionare il piano tariffario Prova gratuita (Premium-14 giorni gratis) per consentire all'area di lavoro l'accesso a DBUs Premium di Azure Databricks gratuiti per 14 giorni.

  • È necessario essere un collaboratore o un proprietario di Azure oppure il provider di risorse Microsoft.ManagedIdentity deve essere registrato nella sottoscrizione. Per istruzioni, seguire Registrare il provider di risorse.

Accedere al portale di Azure

Accedere al portale di Azure.

Nota

Se si vuole creare un'area di lavoro di Azure Databricks nel cloud commerciale di Azure che contiene certificazioni di conformità al governo degli Stati Uniti, ad esempio FedRAMP High, contattare il team dell'account Microsoft o Databricks per ottenere l'accesso a questa esperienza.

Creare una rete virtuale

  1. Nel menu del portale di Azure selezionare Crea una risorsa. Poi selezionare Rete > Rete virtuale.

    Creare una rete virtuale nel portale di Azure

  2. In Crea rete virtuale applicare le impostazioni seguenti:

    Impostazione Valore suggerito Descrizione
    Subscription <Sottoscrizione in uso> Selezionare la sottoscrizione di Azure da usare.
    Gruppo di risorse databricks-quickstart seleziona Crea nuovo e immetti un nuovo nome per il gruppo di risorse per l'account.
    Nome databricks-quickstart Selezionare un nome per la rete virtuale.
    Paese <Selezionare l'area più vicina agli utenti> Selezionare una posizione geografica in cui è possibile ospitare la rete virtuale. Usare la località più vicina agli utenti.

    Elementi di base di una rete virtuale nel portale di Azure

  3. Selezionare Avanti: Indirizzi IP > e applicare le impostazioni seguenti. Selezionare quindi Rivedi e crea.

    Impostazione Valore suggerito Descrizione
    Spazio indirizzi IPv4 10.2.0.0/16 Intervallo di indirizzi della rete virtuale nella notazione CIDR. L'intervallo CIDR deve essere compreso tra /16 e /24
    Nome della subnet impostazione predefinita Selezionare un nome per la subnet predefinita nella rete virtuale.
    Intervallo di indirizzi subnet 10.2.0.0/24 Intervallo di indirizzi della subnet nella notazione CIDR. Deve essere incluso nello spazio indirizzi della rete virtuale. Non è possibile modificare l'intervallo di indirizzi di una subnet in uso.

    Impostare le configurazioni IP per una rete virtuale nel portale di Azure

  4. Nella scheda Rivedi e crea, fare clic su Crea per distribuire la rete virtuale. Al termine della distribuzione, passare alla rete virtuale e selezionare Spazio indirizzi in impostazioni . Nella casella intitolata Aggiungi un intervallo di indirizzi aggiuntivo, inserire 10.179.0.0/16 e selezionare Salva.

    Spazio indirizzi della rete virtuale di Azure

Creare un'area di lavoro di Azure Databricks

  1. Nel menu del portale di Azure selezionare Crea una risorsa. Seleziona quindi Analytics > Databricks.

    Creare un'area di lavoro di Azure Databricks nel portale di Azure

  2. In Servizio Azure Databricks applicare le impostazioni seguenti:

    Impostazione Valore suggerito Descrizione
    Nome area di lavoro databricks-quickstart Selezionare un nome per l'area di lavoro di Azure Databricks.
    Subscription <Sottoscrizione in uso> Selezionare la sottoscrizione di Azure da usare.
    Gruppo di risorse databricks-quickstart Selezionare lo stesso gruppo di risorse usato per la rete virtuale.
    Ufficio <Selezionare l'area più vicina agli utenti> Scegliere la stessa località della rete virtuale.
    Piano tariffario Scegliere tra Standard e Premium. Per altre informazioni sui piani tariffari, vedere la pagina dei prezzi di Databricks.

    Creare un'area di lavoro di Azure Databricks - Informazioni di base

  3. Dopo aver immesso le impostazioni nella pagina Impostazioni di base, selezionare Avanti: Rete > e applicare le impostazioni seguenti:

    Impostazione Valore suggerito Descrizione
    Distribuire l'area di lavoro di Azure Databricks nella rete virtuale Questa impostazione consente di distribuire un'area di lavoro di Azure Databricks nella rete virtuale.
    Rete virtuale databricks-quickstart Selezionare la rete virtuale creata nella sezione precedente.
    Nome subnet pubblica public-subnet Usare il nome predefinito della subnet pubblica.
    Intervallo CIDR della subnet pubblica 10.179.64.0/18 Usare un intervallo CIDR fino a /26 incluso.
    Nome subnet privata private-subnet Usare il nome predefinito della subnet privata.
    Intervallo CIDR della subnet privata 10.179.0.0/18 Usare un intervallo CIDR fino a /26 incluso.

    Aggiungere informazioni sulla rete virtuale per l'area di lavoro di Azure Databricks nel portale di Azure

  4. Al termine della distribuzione, passare alla risorsa Azure Databricks. Si noti che il peering di rete virtuale è disabilitato. Notare anche il gruppo di risorse e il gruppo di risorse gestite nella pagina di panoramica.

    Panoramica di Azure Databricks nel portale di Azure

    Il gruppo di risorse gestite non è modificabile e non viene usato per creare macchine virtuali. È possibile creare macchine virtuali solo nel gruppo di risorse che si gestisce.

    Gruppo di risorse gestite di Azure Databricks

    Quando la distribuzione di un'area di lavoro non riesce, l'area di lavoro viene creata comunque anche se in uno stato di errore. Eliminare l'area di lavoro in errore e crearne una nuova per risolvere gli errori di distribuzione. Quando si elimina l'area di lavoro in errore, vengono eliminati anche il gruppo di risorse gestite e tutte le eventuali risorse distribuite correttamente.

Creare un cluster

Nota

Per usare un account gratuito per creare il cluster Azure Databricks, prima di creare il cluster, passare al profilo personale e impostare la sottoscrizione per il pagamento in base al consumo. Per altre informazioni, vedere Account gratuito di Azure.

  1. Tornare al servizio Azure Databricks e selezionare Avvia area di lavoro nella pagina Panoramica.

  2. Seleziona Cluster>+ Crea Cluster. Creare quindi un nome di cluster, ad esempio databricks-quickstart-cluster, e accettare le impostazioni predefinite rimanenti. Selezionare Crea cluster.

    Creare un cluster di Azure Databricks

  3. Quando il cluster è in esecuzione, tornare nel gruppo di risorse gestite nel portale di Azure. Notare le nuove macchine virtuali, i dischi, l'indirizzo IP e le interfacce di rete. Viene creata un'interfaccia di rete in ogni subnet pubblica e privata con indirizzi IP.

  4. Tornare all'area di lavoro di Azure Databricks e selezionare il cluster creato. Passare quindi alla scheda Executor della pagina dell'interfaccia utente Spark. Notare che gli indirizzi del driver e degli executor rientrano nell'intervallo della subnet privata. In questo esempio l'indirizzo del driver è 10.179.0.6 e quelli degli executor sono 10.179.0.4 e 10.179.0.5. I propri indirizzi IP potrebbero essere diversi.

    Executor nell'interfaccia utente Spark in Azure Databricks

Pulire le risorse

Dopo aver finito l'articolo è possibile terminare il cluster. A tale scopo, dall’area di lavoro di Azure Databricks, nel riquadro a sinistra, selezionare Clusters. Per il cluster che desideri terminare, sposta il cursore sui puntini di tre sotto la colonna Azioni e seleziona l'icona Termina. Il cluster viene arrestato.

Se non viene terminato manualmente, il cluster si arresterà automaticamente se è stata selezionata la casella di controllo Terminate after __ minutes of inactivity (Termina dopo ___ minuti di attività) durante la creazione del cluster. In tal caso, il cluster viene automaticamente arrestato se è rimasto inattivo per il tempo specificato.

Se non si vuole riusare il cluster, è possibile eliminare il gruppo di risorse creato nel portale di Azure.

Passaggi successivi

In questo articolo è stato creato un cluster Spark in Azure Databricks, che è stato distribuito in una rete virtuale. Passare all'articolo successivo per informazioni su come eseguire una query su un contenitore Docker Linux di SQL Server nella rete virtuale usando JDBC da un notebook di Azure Databricks.

Eseguire query in un contenitore Docker Linux di SQL Server in una rete virtuale da un notebook di Azure Databricks