Condividi tramite


Installare Databricks Connect per Python

Nota

Questo articolo illustra Databricks Connect per Databricks Runtime 13.3 LTS e versioni successive.

Questo articolo descrive come installare Databricks Connect per Python. Consultare Cos’è Databricks Connect?. Per la versione scala di questo articolo, vedere Installare Databricks Connect per Scala.

Requisiti

Per installare Databricks Connect per Python, è necessario soddisfare i requisiti seguenti:

  • Se ci si connette a un ambiente di calcolo serverless, l'area di lavoro deve soddisfare i requisiti per il calcolo serverless.

    Nota

    Il calcolo serverless è supportato in Databricks Connect versione 15.1 e successive. Inoltre, le versioni di Databricks Connect in o versioni precedenti alla versione di Databricks Runtime in serverless sono completamente compatibili. Vedere Note sulla versione. Per verificare se la versione di Databricks Connect è compatibile con il calcolo serverless, vedere Convalidare la connessione a Databricks.

  • Se ci si connette a un cluster, il cluster di destinazione deve soddisfare i requisiti di configurazione del cluster, inclusi i requisiti di versione di Databricks Runtime.

  • È necessario avere Python 3 installato sul computer di sviluppo, e la versione secondaria di Python installata deve soddisfare i requisiti di versione nella sezione table seguente.

    Tipo di ambiente di calcolo Versione di Databricks Connect Versione di Python compatibile
    Senza server 15.1 e versioni successive 3.11
    Cluster 15.1 e versioni successive 3.11
    Cluster Da 13.3 LTS a 14.3 LTS 3.10
  • Se si utilizzano funzioni definite dall'utente (UDF), la sottoversione locale di Python deve corrispondere alla sottoversione di Python della versione di Databricks Runtime del cluster o del calcolo serverless. Per trovare la sottoversione di Python della versione di Databricks Runtime del cluster, consultare la sezione ambiente di sistema delle note sulla versione di Databricks Runtime per tale versione. Vedere Le note sulla versione di Databricks Runtime e le note sulla compatibilità e sulla versione di calcolo serverless.

Attivare un ambiente virtuale Python

Databricks consiglia vivamente di avere un ambiente virtuale Python attivato per ogni versione di Python usata con Databricks Connect. Gli ambienti virtuali Python consentono di assicurarsi di usare le versioni corrette di Python e Databricks Connetti insieme. Per ulteriori informazioni su questi strumenti e su come attivarli, vedi venv o Poetry.

Installare il client Databricks Connect

Questa sezione descrive come installare il client Databricks Connect con venv o Poetry.

Nota

Se è già installata l'estensione Databricks per Visual Studio Code, non è necessario seguire queste istruzioni di installazione, perché l'estensione Databricks per Visual Studio Code include già il supporto predefinito per Databricks Connect per Databricks Runtime 13.3 LTS e versioni successive. Passare al codice di debug usando Databricks Connect per l'estensione Databricks per Visual Studio Code.

Installare il client Databricks Connect con venv

  1. Dopo aver attivato l'ambiente virtuale, disinstallare PySpark, se è già installato, eseguendo il uninstall comando . Questa operazione è necessaria perché il databricks-connect pacchetto è in conflitto con PySpark. Per informazioni dettagliate, vedere Installazioni di PySpark in conflitto. Per verificare se PySpark è già installato, eseguire il show comando .

    # Is PySpark already installed?
    pip3 show pyspark
    
    # Uninstall PySpark
    pip3 uninstall pyspark
    
  2. Con l'ambiente virtuale ancora attivato, installare il client Databricks Connect eseguendo il install comando . Usare l'opzione --upgrade per aggiornare qualsiasi installazione client esistente alla versione specificata.

    pip3 install --upgrade "databricks-connect==15.4.*"  # Or X.Y.* to match your cluster version.
    

    Nota

    Databricks consiglia di aggiungere la notazione "dot-asterisk" per specificare databricks-connect==X.Y.* invece di databricks-connect=X.Y, per assicurarsi che il pacchetto più recente sia installato. Anche se questo non è un requisito, consente di assicurarsi di poter usare le funzionalità supportate più recenti per tale cluster.

Installare il client Databricks Connect con Poetry

  1. Dopo aver attivato l'ambiente virtuale, disinstallare PySpark, se è già installato, eseguendo il remove comando . Questa operazione è necessaria perché il databricks-connect pacchetto è in conflitto con PySpark. Per informazioni dettagliate, vedere Installazioni di PySpark in conflitto. Per verificare se PySpark è già installato, eseguire il show comando .

    # Is PySpark already installed?
    poetry show pyspark
    
    # Uninstall PySpark
    poetry remove pyspark
    
  2. Con l'ambiente virtuale ancora attivato, installare il client Databricks Connect eseguendo il add comando .

    poetry add databricks-connect@~15.4  # Or X.Y to match your cluster version.
    

    Nota

    Databricks consiglia di usare la notazione "at-tilde" per specificare databricks-connect@~15.4 invece di databricks-connect==15.4, per assicurarsi che il pacchetto più recente sia installato. Anche se questo non è un requisito, consente di assicurarsi di poter usare le funzionalità supportate più recenti per tale cluster.

Passaggi successivi

Dopo aver installato Databricks Connect, è necessario configurare una connessione a Databricks. Vedere Configurazione di calcolo per Databricks Connect.