Migrowanie do usługi Databricks Connect dla języka Python
W tym artykule opisano sposób migracji z usługi Databricks Connect dla środowiska Databricks Runtime 12.2 LTS i poniżej do usługi Databricks Connect dla środowiska Databricks Runtime 13.3 LTS i nowszego dla języka Python. Usługa Databricks Connect umożliwia łączenie popularnych środowisk IDE, serwerów notesów i aplikacji niestandardowych z klastrami usługi Azure Databricks. Zobacz Co to jest usługa Databricks Connect?. Aby zapoznać się z wersją tego artykułu, zobacz Migrowanie do usługi Databricks Connect dla języka Scala.
Uwaga
Przed rozpoczęciem korzystania z usługi Databricks Connect należy skonfigurować klienta Usługi Databricks Connect.
Postępuj zgodnie z tymi wytycznymi, aby przeprowadzić migrację istniejącego projektu kodu w języku Python lub środowiska kodowania z usługi Databricks Connect dla środowiska Databricks Runtime 12.2 LTS i nowszych do usługi Databricks Connect dla środowiska Databricks Runtime 13.3 LTS lub nowszego.
Zainstaluj poprawną wersję języka Python zgodnie z wymaganiami dotyczącymi instalacji, aby dopasować klaster usługi Azure Databricks, jeśli nie został jeszcze zainstalowany lokalnie.
Uaktualnij środowisko wirtualne języka Python, aby w razie potrzeby użyć poprawnej wersji języka Python, aby dopasować klaster. Aby uzyskać instrukcje, zobacz dokumentację dostawcy środowiska wirtualnego.
Po aktywowaniu środowiska wirtualnego odinstaluj narzędzie PySpark ze środowiska wirtualnego:
pip3 uninstall pyspark
Po aktywowaniu środowiska wirtualnego odinstaluj program Databricks Connect dla środowiska Databricks Runtime 12.2 LTS i poniżej:
pip3 uninstall databricks-connect
Po aktywowaniu środowiska wirtualnego zainstaluj program Databricks Connect dla środowiska Databricks Runtime 13.3 LTS lub nowszego:
pip3 install --upgrade "databricks-connect==14.0.*" # Or X.Y.* to match your cluster version.
Uwaga
Usługa Databricks zaleca dołączenie notacji "kropka-gwiazdka", aby określić
databricks-connect==X.Y.*
zamiastdatabricks-connect=X.Y
, aby upewnić się, że zainstalowano najnowszy pakiet. Chociaż nie jest to wymagane, pomaga upewnić się, że możesz używać najnowszych obsługiwanych funkcji dla tego klastra.Zaktualizuj kod języka Python, aby zainicjować
spark
zmienną (która reprezentuje wystąpienieDatabricksSession
klasy, podobnie jakSparkSession
w PySpark). Zobacz Konfiguracja obliczeń dla usługi Databricks Connect.Przeprowadź migrację interfejsów API RDD do korzystania z interfejsów API ramki danych i zmigruj je
SparkContext
do użycia alternatyw.
Ustawianie konfiguracji usługi Hadoop
Na kliencie można ustawić konfiguracje usługi Hadoop przy użyciu interfejsu spark.conf.set
API, który ma zastosowanie do operacji SQL i DataFrame. Konfiguracje usługi Hadoop ustawione na sparkContext
serwerze muszą być ustawione w konfiguracji klastra lub przy użyciu notesu. Dzieje się tak, ponieważ konfiguracje ustawione na sparkContext
serwerze nie są powiązane z sesjami użytkownika, ale mają zastosowanie do całego klastra.