Condividi tramite


Databricks Connect for Python

Nota

Questo articolo illustra Databricks Connect per Databricks Runtime 13.3 LTS e versioni successive.

Questo articolo illustra come get iniziare rapidamente con Databricks Connect usando Python e PyCharm.

Databricks Connect consente di connettere gli IDE più diffusi, ad esempio PyCharm, i server notebook e altre applicazioni personalizzate ai cluster Di Azure Databricks. Consultare Cos’è Databricks Connect?.

Esercitazione

Per ignorare questa esercitazione e usare invece un IDE diverso, vedere Passaggi successivi.

Requisiti

Per completare questa esercitazione, è necessario soddisfare i requisiti seguenti:

  • L'area di lavoro di Azure Databricks di destinazione deve avere Unity Catalog abilitata.
  • È installato PyCharm. Questa esercitazione è stata testata con PyCharm Community Edition 2023.3.5. Se si usa una versione o un'edizione diversa di PyCharm, le istruzioni seguenti possono variare.
  • Il calcolo soddisfa i requisiti di installazione di Databricks Connect per Python.
  • Se si usa il calcolo classico, sarà necessario l'ID del cluster. Per get l'ID cluster, nell'area di lavoro fare clic su calcolo sulla barra laterale e quindi sul nome del cluster. Nella barra degli indirizzi del Web browser copiare la stringa di caratteri tra clusters e configuration nell'URL.

Passaggio 1: Configurare l'autenticazione di Azure Databricks

Questa esercitazione usa l'autenticazione da utente a computer (U2M) di Azure Databricks e un profilo di configurazione di Azure Databricks per l'autenticazione nell'area di lavoro di Azure Databricks. Per usare un tipo di autenticazione diverso, vedere Configurare le proprietà di connessione.

La configurazione dell'autenticazione U2M OAuth richiede l'interfaccia della riga di comando di Databricks. Per informazioni sull'installazione dell'interfaccia della riga di comando di Databricks, vedere Installare o update l'interfaccia della riga di comando di Databricks.

Avviare l'autenticazione U2M OAuth, come indicato di seguito:

  1. Usare il Databricks CLI per avviare la gestione dei token OAuth in locale eseguendo il seguente comando per ogni area di lavoro di destinazione.

    Nel seguente comando, sostituire <workspace-url> con l’URL per l'area di lavoro di Azure Databricks, per esempio https://adb-1234567890123456.7.azuredatabricks.net.

    databricks auth login --configure-cluster --host <workspace-url>
    

    Suggerimento

    Per usare il calcolo serverless con Databricks Connect, vedere Configurare una connessione al calcolo serverless.

  2. Il Databricks CLI richiede di salvare le informazioni immesse come profilo di configurazione di Azure Databricks. Premere Enter per accettare il nome del profilo suggerito oppure immettere il nome di un profilo nuovo o esistente. Qualsiasi profilo esistente con lo stesso nome viene sovrascritto con le informazioni immesse. È possibile usare i profili per cambiare rapidamente il contesto di autenticazione tra più aree di lavoro.

    Per get un list di qualsiasi profilo esistente, in un terminale o prompt dei comandi separato, usare la CLI di Databricks per eseguire il comando databricks auth profiles. Per visualizzare le impostazioni esistenti di un profilo specifico, eseguire il comando databricks auth env --profile <profile-name>.

  3. Nel Web browser completare le istruzioni visualizzate per accedere all'area di lavoro di Azure Databricks.

  4. Nella list dei cluster disponibili visualizzati nel terminale o nel prompt dei comandi, usa i tasti freccia su e freccia giù per select il cluster di Azure Databricks di destinazione nell'area di lavoro, e poi premi Enter. È anche possibile digitare qualsiasi parte del nome visualizzato del cluster per filtrare il list dei cluster disponibili.

  5. Per visualizzare il valore corrente del token OAuth di un profilo e il timestamp di scadenza imminente del token, eseguire uno dei comandi seguenti:

    • databricks auth token --host <workspace-url>
    • databricks auth token -p <profile-name>
    • databricks auth token --host <workspace-url> -p <profile-name>

    Se si dispone di più profili con lo stesso valore --host, potrebbe essere necessario specificare insieme le opzioni --host e -p per consentire al Databricks CLI di trovare le informazioni corrette corrispondenti sul token OAuth.

Step 2: Creare il progetto

  1. Avviare PyCharm.
  2. Dal menu principale, fare click su File > Nuovo progetto.
  3. Nella finestra di dialogo Nuovo progetto fare clic su Pure Python.
  4. Per Percorso fare clic sull'icona della cartella e completare le istruzioni visualizzate per specificare il percorso del nuovo progetto Python.
  5. Lasciare selezionata l'opzione Crea un main.py script di benvenuto.
  6. Per Tipo di interprete fare clic su Progetto venv.
  7. Espandi versione Pythone usa l'icona della cartella o l'elenco a discesa list per specificare il percorso dell'interprete Python dai requisiti precedenti.
  8. Cliccare su Crea.

Creare il progetto PyCharm

Passaggio 3: Aggiungere il pacchetto Databricks Connect

  1. Nel menu principale di PyCharm fare clic su > dello strumento>.
  2. Nella casella di ricerca immettere databricks-connect.
  3. Nel repository PyPI list, fare clic su databricks-connect.
  4. Nell'elenco a discesa più recente del riquadro dei risultati listselect la versione corrispondente alla versione di Databricks Runtime del cluster. Ad esempio, se nel cluster è installato Databricks Runtime 14.3, select14.3.1.
  5. Fare clic su Installa pacchetto.
  6. Dopo l'installazione del pacchetto, è possibile chiudere i pacchetti Python window.

Installare il pacchetto Databricks Connect

Passaggio 4: Aggiungere codice

  1. Nello strumento Projectwindow, fare clic con il pulsante destro del mouse sulla cartella radice del progetto e fare clic su Nuovo file Python >.

  2. Immettere main.py e fare doppio clic su File Python.

  3. Immettere il codice seguente nel file e quindi salvare il file, a seconda del nome del profilo di configurazione.

    Se il profilo di configurazione del passaggio 1 è denominato DEFAULT, immettere il codice seguente nel file e quindi salvare il file:

    from databricks.connect import DatabricksSession
    
    spark = DatabricksSession.builder.getOrCreate()
    
    df = spark.read.table("samples.nyctaxi.trips")
    df.show(5)
    

    Se il profilo di configurazione del passaggio 1 non è denominato DEFAULT, immettere il codice seguente nel file. Sostituire il segnaposto <profile-name> con il nome del profilo di configurazione del passaggio 1 e quindi salvare il file:

    from databricks.connect import DatabricksSession
    
    spark = DatabricksSession.builder.profile("<profile-name>").getOrCreate()
    
    df = spark.read.table("samples.nyctaxi.trips")
    df.show(5)
    

Passaggio 5: Eseguire il codice

  1. Avviare il cluster di destinazione nell'area di lavoro remota di Azure Databricks.
  2. Dopo l'avvio del cluster, nel menu principale fare clic su Esegui > 'main'.
  3. Nello strumento Esegui (Visualizza Strumento Esegui) nella scheda principale vengono visualizzate le prime 5 righe del .

Passaggio 6: Eseguire il debug del codice

  1. Con il cluster ancora in esecuzione, nel codice precedente fare clic sulla barra accanto a df.show(5) per set un punto di interruzione.
  2. Nel menu principale fare clic su Esegui > debug 'main'.
  3. Nello strumento debug (Visualizza strumento Debug ), nel riquadro variabili variabili debugger espandere il df e nodi delle variabili spark per esplorare le informazioni sulle variabili e del codice.
  4. Nello strumento debug barra laterale fare clic sulla freccia verde (Riprendi programma).
  5. Nel riquadro Console della scheda Debugger vengono visualizzate le prime 5 righe dell'oggetto samples.nyctaxi.trips .

Eseguire il debug del progetto PyCharm

Passaggi successivi

Per altre informazioni su Databricks Connect, vedere articoli come i seguenti: