Migrowanie do usługi Databricks Connect dla języka Python
W tym artykule opisano sposób migracji z usługi Databricks Connect dla środowiska Databricks Runtime 12.2 LTS i poniżej do usługi Databricks Connect dla środowiska Databricks Runtime 13.3 LTS i nowszego dla języka Python. Usługa Databricks Connect umożliwia połączenie popularnych środowisk IDE, serwerów notesów i aplikacji niestandardowych z klastrami usługi Azure Databricks. Zobacz Co to jest usługa Databricks Connect?. Aby zapoznać się z wersją artykułu w języku Scala, zobacz Migrowanie do usługi Databricks Connect w języku Scala.
Uwaga
Przed rozpoczęciem korzystania z usługi Databricks Connect należy skonfigurować klienta usługi Databricks Connect.
Postępuj zgodnie z tymi wytycznymi, aby przeprowadzić migrację istniejącego projektu kodu w języku Python lub środowiska kodowania z usługi Databricks Connect dla środowiska Databricks Runtime 12.2 LTS i starszych do usługi Databricks Connect dla środowiska Databricks Runtime 13.3 LTS lub nowszego.
Zainstaluj poprawną wersję języka Python zgodnie z wymaganiami dotyczącymi instalacji, aby dopasować klaster usługi Azure Databricks, jeśli nie został jeszcze zainstalowany lokalnie.
Uaktualnij środowisko wirtualne języka Python, aby w razie potrzeby użyć poprawnej wersji języka Python, aby dopasować klaster. Aby uzyskać instrukcje, zobacz dokumentację dostawcy środowiska wirtualnego.
Po aktywowaniu środowiska wirtualnego odinstaluj narzędzie PySpark ze środowiska wirtualnego:
pip3 uninstall pyspark
Gdy środowisko wirtualne jest nadal aktywne, odinstaluj program Databricks Connect dla środowiska Databricks Runtime 12.2 LTS i niższe.
pip3 uninstall databricks-connect
Po aktywowaniu środowiska wirtualnego zainstaluj program Databricks Connect dla środowiska Databricks Runtime 13.3 LTS lub nowszego:
pip3 install --upgrade "databricks-connect==14.0.*" # Or X.Y.* to match your cluster version.
Uwaga
Usługa Databricks zaleca dołączenie notacji "kropka-gwiazdka", aby określić
databricks-connect==X.Y.*
zamiastdatabricks-connect=X.Y
, aby upewnić się, że zainstalowano najnowszy pakiet. Chociaż nie jest to wymagane, pomaga upewnić się, że możesz używać najnowszych obsługiwanych funkcji dla tego klastra.Zaktualizuj kod języka Python, aby zainicjować zmienną
spark
(która reprezentuje wystąpienie klasyDatabricksSession
, podobnie jakSparkSession
w PySpark). Zobacz Konfiguracja obliczeń dla usługi Databricks Connect.Przeprowadź migrację interfejsów API RDD na API DataFrame i zaktualizuj
SparkContext
do użycia alternatyw.
Ustawianie konfiguracji usługi Hadoop
Na kliencie można ustawić konfiguracje usługi Hadoop przy użyciu interfejsu spark.conf.set
API, który ma zastosowanie do operacji SQL i DataFrame. Konfiguracje usługi Hadoop ustawione na sparkContext
muszą być skonfigurowane w ustawieniach klastra lub przy użyciu notatnika. Dzieje się tak, ponieważ konfiguracje ustawione na sparkContext
serwerze nie są powiązane z sesjami użytkownika, ale mają zastosowanie do całego klastra.