Eseguire la migrazione a Databricks Connect per Python
Questo articolo descrive come eseguire la migrazione da Databricks Connect per Databricks Runtime 12.2 LTS e versioni successive a Databricks Connect per Databricks Runtime 13.3 LTS e versioni successive per Python. Databricks Connect consente di connettere gli IDE, i server notebook e le applicazioni personalizzate più diffusi ai cluster Azure Databricks. Consultare Cos’è Databricks Connect?. Per la versione scala di questo articolo, vedere Eseguire la migrazione a Databricks Connect per Scala.
Nota
Prima di iniziare a usare Databricks Connect, è necessario configurare il client Databricks Connect.
Seguire queste linee guida per eseguire la migrazione del progetto di codice Python esistente o dell'ambiente di codifica da Databricks Connect per Databricks Runtime 12.2 LTS e versioni successive a Databricks Connect per Databricks Runtime 13.3 LTS e versioni successive.
Installare la versione corretta di Python come indicato nei requisiti di installazione in modo che corrispondano al cluster Azure Databricks, se non è già installato in locale.
Aggiornare l'ambiente virtuale Python per usare la versione corretta di Python in modo che corrisponda al cluster, se necessario. Per istruzioni, vedere la documentazione del provider di ambiente virtuale.
Con l'ambiente virtuale attivato, disinstallare PySpark dall'ambiente virtuale:
pip3 uninstall pyspark
Con l'ambiente virtuale ancora attivato, disinstallare Databricks Connect per Databricks Runtime 12.2 LTS e versioni successive:
pip3 uninstall databricks-connect
Con l'ambiente virtuale ancora attivato, installare Databricks Connect per Databricks Runtime 13.3 LTS e versioni successive:
pip3 install --upgrade "databricks-connect==14.0.*" # Or X.Y.* to match your cluster version.
Nota
Databricks consiglia di aggiungere la notazione "dot-asterisk" per specificare
databricks-connect==X.Y.*
invece didatabricks-connect=X.Y
, per assicurarsi che il pacchetto più recente sia installato. Anche se questo non è un requisito, consente di assicurarsi di poter usare le funzionalità supportate più recenti per tale cluster.Aggiornare il codice Python per inizializzare la
spark
variabile ( che rappresenta una creazione di istanze dellaDatabricksSession
classe , simile aSparkSession
in PySpark). Vedere Configurazione di calcolo per Databricks Connect.Eseguire la migrazione delle API RDD per usare le API dataframe ed eseguire la migrazione
SparkContext
di per usare alternative.
Impostare le configurazioni Hadoop
Nel client è possibile impostare le configurazioni di Hadoop usando l'API spark.conf.set
, che si applica alle operazioni SQL e DataFrame. Le configurazioni hadoop impostate in sparkContext
devono essere impostate nella configurazione del cluster o usando un notebook. Ciò è dovuto al fatto che le configurazioni impostate in sparkContext
non sono associate alle sessioni utente, ma si applicano all'intero cluster.