Migrowanie do usługi Databricks Connect dla języka Python
W tym artykule opisano sposób migracji z usługi Databricks Connect dla środowiska Databricks Runtime 12.2 LTS i poniżej do usługi Databricks Connect dla środowiska Databricks Runtime 13.3 LTS i nowszego dla języka Python. Usługa Databricks Connect umożliwia łączenie popularnych środowisk IDE, serwerów notesów i aplikacji niestandardowych z klastrami usługi Azure Databricks. Zobacz Co to jest usługa Databricks Connect?. Aby zapoznać się z wersją tego artykułu, zobacz Migrowanie do usługi Databricks Connect dla języka Scala.
Uwaga
Przed rozpoczęciem korzystania z Databricks Connect, należy set klienta Databricks Connect.
Postępuj zgodnie z tymi wytycznymi, aby przeprowadzić migrację istniejącego projektu kodu w języku Python lub środowiska kodowania z usługi Databricks Connect dla środowiska Databricks Runtime 12.2 LTS i nowszych do usługi Databricks Connect dla środowiska Databricks Runtime 13.3 LTS lub nowszego.
Zainstaluj poprawną wersję języka Python zgodnie z wymaganiami dotyczącymi instalacji, aby dopasować klaster usługi Azure Databricks, jeśli nie został jeszcze zainstalowany lokalnie.
Uaktualnij środowisko wirtualne języka Python, aby w razie potrzeby użyć poprawnej wersji języka Python, aby dopasować klaster. Aby uzyskać instrukcje, zobacz dokumentację dostawcy środowiska wirtualnego.
Po aktywowaniu środowiska wirtualnego odinstaluj narzędzie PySpark ze środowiska wirtualnego:
pip3 uninstall pyspark
Po aktywowaniu środowiska wirtualnego odinstaluj program Databricks Connect dla środowiska Databricks Runtime 12.2 LTS i poniżej:
pip3 uninstall databricks-connect
Po aktywowaniu środowiska wirtualnego zainstaluj program Databricks Connect dla środowiska Databricks Runtime 13.3 LTS lub nowszego:
pip3 install --upgrade "databricks-connect==14.0.*" # Or X.Y.* to match your cluster version.
Uwaga
Usługa Databricks zaleca dołączenie notacji "kropka-gwiazdka", aby określić
databricks-connect==X.Y.*
zamiastdatabricks-connect=X.Y
, aby upewnić się, że zainstalowano najnowszy pakiet. Chociaż nie jest to wymagane, pomaga upewnić się, że możesz używać najnowszych obsługiwanych funkcji dla tego klastra.Update kodu w języku Python, aby zainicjować zmienną
spark
(która reprezentuje wystąpienie klasyDatabricksSession
, podobnie jakSparkSession
w programie PySpark). Zobacz Konfiguracja obliczeń dla usługi Databricks Connect.Przeprowadź migrację interfejsów API RDD do korzystania z interfejsów API ramki danych i zmigruj je
SparkContext
do użycia alternatyw.
Set konfiguracje usługi Hadoop
Na kliencie można set konfiguracje Hadoop za pomocą interfejsu API spark.conf.set
, który stosuje się do operacji SQL i DataFrame. Konfiguracje Hadoop set na sparkContext
muszą być set w konfiguracji klastra lub za pomocą notatnika. Dzieje się tak, ponieważ konfiguracje set na sparkContext
nie są powiązane z sesjami użytkownika, ale mają zastosowanie do całego klastra.