Installare Databricks Connect per Python
Nota
Questo articolo illustra Databricks Connect per Databricks Runtime 13.3 LTS e versioni successive.
Questo articolo descrive come installare Databricks Connect per Python. Consultare Cos’è Databricks Connect?. Per la versione scala di questo articolo, vedere Installare Databricks Connect per Scala.
Requisiti
Per installare Databricks Connect per Python, è necessario soddisfare i requisiti seguenti:
Se ci si connette a un ambiente di calcolo serverless, l'area di lavoro deve soddisfare i requisiti per il calcolo serverless.
Nota
Il calcolo serverless è supportato in Databricks Connect versione 15.1 e successive. Inoltre, le versioni di Databricks Connect in o versioni precedenti alla versione di Databricks Runtime in serverless sono completamente compatibili. Vedere Note sulla versione. Per verificare se la versione di Databricks Connect è compatibile con il calcolo serverless, vedere Convalidare la connessione a Databricks.
Se ci si connette a un cluster, il cluster di destinazione deve soddisfare i requisiti di configurazione del cluster, inclusi i requisiti di versione di Databricks Runtime.
È necessario avere Python 3 installato sul computer di sviluppo, e la versione secondaria di Python installata deve soddisfare i requisiti di versione nella sezione table seguente.
Tipo di ambiente di calcolo Versione di Databricks Connect Versione di Python compatibile Senza server 15.1 e versioni successive 3.11 Cluster 15.1 e versioni successive 3.11 Cluster Da 13.3 LTS a 14.3 LTS 3.10 Se si utilizzano funzioni definite dall'utente (UDF), la sottoversione locale di Python deve corrispondere alla sottoversione di Python della versione di Databricks Runtime del cluster o del calcolo serverless. Per trovare la sottoversione di Python della versione di Databricks Runtime del cluster, consultare la sezione ambiente di sistema delle note sulla versione di Databricks Runtime per tale versione. Vedere Le note sulla versione di Databricks Runtime e le note sulla compatibilità e sulla versione di calcolo serverless.
Attivare un ambiente virtuale Python
Databricks consiglia vivamente di avere un ambiente virtuale Python attivato per ogni versione di Python usata con Databricks Connect. Gli ambienti virtuali Python consentono di assicurarsi di usare le versioni corrette di Python e Databricks Connetti insieme. Per ulteriori informazioni su questi strumenti e su come attivarli, vedi venv o Poetry.
Installare il client Databricks Connect
Questa sezione descrive come installare il client Databricks Connect con venv o Poetry.
Nota
Se è già installata l'estensione Databricks per Visual Studio Code, non è necessario seguire queste istruzioni di installazione, perché l'estensione Databricks per Visual Studio Code include già il supporto predefinito per Databricks Connect per Databricks Runtime 13.3 LTS e versioni successive. Passare al codice di debug usando Databricks Connect per l'estensione Databricks per Visual Studio Code.
Installare il client Databricks Connect con venv
Dopo aver attivato l'ambiente virtuale, disinstallare PySpark, se è già installato, eseguendo il
uninstall
comando . Questa operazione è necessaria perché ildatabricks-connect
pacchetto è in conflitto con PySpark. Per informazioni dettagliate, vedere Installazioni di PySpark in conflitto. Per verificare se PySpark è già installato, eseguire ilshow
comando .# Is PySpark already installed? pip3 show pyspark # Uninstall PySpark pip3 uninstall pyspark
Con l'ambiente virtuale ancora attivato, installare il client Databricks Connect eseguendo il
install
comando . Usare l'opzione--upgrade
per aggiornare qualsiasi installazione client esistente alla versione specificata.pip3 install --upgrade "databricks-connect==15.4.*" # Or X.Y.* to match your cluster version.
Nota
Databricks consiglia di aggiungere la notazione "dot-asterisk" per specificare
databricks-connect==X.Y.*
invece didatabricks-connect=X.Y
, per assicurarsi che il pacchetto più recente sia installato. Anche se questo non è un requisito, consente di assicurarsi di poter usare le funzionalità supportate più recenti per tale cluster.
Installare il client Databricks Connect con Poetry
Dopo aver attivato l'ambiente virtuale, disinstallare PySpark, se è già installato, eseguendo il
remove
comando . Questa operazione è necessaria perché ildatabricks-connect
pacchetto è in conflitto con PySpark. Per informazioni dettagliate, vedere Installazioni di PySpark in conflitto. Per verificare se PySpark è già installato, eseguire ilshow
comando .# Is PySpark already installed? poetry show pyspark # Uninstall PySpark poetry remove pyspark
Con l'ambiente virtuale ancora attivato, installare il client Databricks Connect eseguendo il
add
comando .poetry add databricks-connect@~15.4 # Or X.Y to match your cluster version.
Nota
Databricks consiglia di usare la notazione "at-tilde" per specificare
databricks-connect@~15.4
invece didatabricks-connect==15.4
, per assicurarsi che il pacchetto più recente sia installato. Anche se questo non è un requisito, consente di assicurarsi di poter usare le funzionalità supportate più recenti per tale cluster.
Passaggi successivi
Dopo aver installato Databricks Connect, è necessario configurare una connessione a Databricks. Vedere Configurazione di calcolo per Databricks Connect.