Migrowanie do usługi Databricks Connect dla języka Python

Artykuł
03/26/2025

W tym artykule opisano sposób migracji z usługi Databricks Connect dla środowiska Databricks Runtime 12.2 LTS i poniżej do usługi Databricks Connect dla środowiska Databricks Runtime 13.3 LTS i nowszego dla języka Python. Usługa Databricks Connect umożliwia połączenie popularnych środowisk IDE, serwerów notesów i aplikacji niestandardowych z klastrami usługi Azure Databricks. Zobacz Co to jest usługa Databricks Connect?. Aby zapoznać się z wersją artykułu w języku Scala, zobacz Migrowanie do usługi Databricks Connect w języku Scala.

Uwaga

Przed rozpoczęciem korzystania z usługi Databricks Connect należy skonfigurować klienta usługi Databricks Connect.

Postępuj zgodnie z tymi wytycznymi, aby przeprowadzić migrację istniejącego projektu kodu w języku Python lub środowiska kodowania z usługi Databricks Connect dla środowiska Databricks Runtime 12.2 LTS i starszych do usługi Databricks Connect dla środowiska Databricks Runtime 13.3 LTS lub nowszego.

Zainstaluj poprawną wersję języka Python zgodnie z wymaganiami dotyczącymi instalacji, aby dopasować klaster usługi Azure Databricks, jeśli nie został jeszcze zainstalowany lokalnie.
Uaktualnij środowisko wirtualne języka Python, aby w razie potrzeby użyć poprawnej wersji języka Python, aby dopasować klaster. Aby uzyskać instrukcje, zobacz dokumentację dostawcy środowiska wirtualnego.
Po aktywowaniu środowiska wirtualnego odinstaluj narzędzie PySpark ze środowiska wirtualnego:
```
pip3 uninstall pyspark
```
Gdy środowisko wirtualne jest nadal aktywne, odinstaluj program Databricks Connect dla środowiska Databricks Runtime 12.2 LTS i niższe.
```
pip3 uninstall databricks-connect
```
Po aktywowaniu środowiska wirtualnego zainstaluj program Databricks Connect dla środowiska Databricks Runtime 13.3 LTS lub nowszego:
```
pip3 install --upgrade "databricks-connect==14.0.*"  # Or X.Y.* to match your cluster version.
```
Uwaga

Usługa Databricks zaleca dołączenie notacji "kropka-gwiazdka", aby określić databricks-connect==X.Y.* zamiast databricks-connect=X.Y, aby upewnić się, że zainstalowano najnowszy pakiet. Chociaż nie jest to wymagane, pomaga upewnić się, że możesz używać najnowszych obsługiwanych funkcji dla tego klastra.
Zaktualizuj kod języka Python, aby zainicjować zmienną spark (która reprezentuje wystąpienie klasy DatabricksSession, podobnie jak SparkSession w PySpark). Zobacz Konfiguracja obliczeń dla usługi Databricks Connect.
Przeprowadź migrację interfejsów API RDD na API DataFrame i zaktualizuj SparkContext do użycia alternatyw.

Ustawianie konfiguracji usługi Hadoop

Na kliencie można ustawić konfiguracje usługi Hadoop przy użyciu interfejsu spark.conf.set API, który ma zastosowanie do operacji SQL i DataFrame. Konfiguracje usługi Hadoop ustawione na sparkContext muszą być skonfigurowane w ustawieniach klastra lub przy użyciu notatnika. Dzieje się tak, ponieważ konfiguracje ustawione na sparkContext serwerze nie są powiązane z sesjami użytkownika, ale mają zastosowanie do całego klastra.

Udostępnij za pośrednictwem

Migrowanie do usługi Databricks Connect dla języka Python

Ustawianie konfiguracji usługi Hadoop

Opinia

Dodatkowe zasoby