Udostępnij za pośrednictwem


Migrowanie do usługi Databricks Connect dla języka Python

W tym artykule opisano sposób migracji z usługi Databricks Connect dla środowiska Databricks Runtime 12.2 LTS i poniżej do usługi Databricks Connect dla środowiska Databricks Runtime 13.3 LTS i nowszego dla języka Python. Usługa Databricks Connect umożliwia łączenie popularnych środowisk IDE, serwerów notesów i aplikacji niestandardowych z klastrami usługi Azure Databricks. Zobacz Co to jest usługa Databricks Connect?. Aby zapoznać się z wersją tego artykułu, zobacz Migrowanie do usługi Databricks Connect dla języka Scala.

Uwaga

Przed rozpoczęciem korzystania z Databricks Connect, należy set klienta Databricks Connect.

Postępuj zgodnie z tymi wytycznymi, aby przeprowadzić migrację istniejącego projektu kodu w języku Python lub środowiska kodowania z usługi Databricks Connect dla środowiska Databricks Runtime 12.2 LTS i nowszych do usługi Databricks Connect dla środowiska Databricks Runtime 13.3 LTS lub nowszego.

  1. Zainstaluj poprawną wersję języka Python zgodnie z wymaganiami dotyczącymi instalacji, aby dopasować klaster usługi Azure Databricks, jeśli nie został jeszcze zainstalowany lokalnie.

  2. Uaktualnij środowisko wirtualne języka Python, aby w razie potrzeby użyć poprawnej wersji języka Python, aby dopasować klaster. Aby uzyskać instrukcje, zobacz dokumentację dostawcy środowiska wirtualnego.

  3. Po aktywowaniu środowiska wirtualnego odinstaluj narzędzie PySpark ze środowiska wirtualnego:

    pip3 uninstall pyspark
    
  4. Po aktywowaniu środowiska wirtualnego odinstaluj program Databricks Connect dla środowiska Databricks Runtime 12.2 LTS i poniżej:

    pip3 uninstall databricks-connect
    
  5. Po aktywowaniu środowiska wirtualnego zainstaluj program Databricks Connect dla środowiska Databricks Runtime 13.3 LTS lub nowszego:

    pip3 install --upgrade "databricks-connect==14.0.*"  # Or X.Y.* to match your cluster version.
    

    Uwaga

    Usługa Databricks zaleca dołączenie notacji "kropka-gwiazdka", aby określić databricks-connect==X.Y.* zamiast databricks-connect=X.Y, aby upewnić się, że zainstalowano najnowszy pakiet. Chociaż nie jest to wymagane, pomaga upewnić się, że możesz używać najnowszych obsługiwanych funkcji dla tego klastra.

  6. Update kodu w języku Python, aby zainicjować zmienną spark (która reprezentuje wystąpienie klasy DatabricksSession, podobnie jak SparkSession w programie PySpark). Zobacz Konfiguracja obliczeń dla usługi Databricks Connect.

  7. Przeprowadź migrację interfejsów API RDD do korzystania z interfejsów API ramki danych i zmigruj je SparkContext do użycia alternatyw.

Set konfiguracje usługi Hadoop

Na kliencie można set konfiguracje Hadoop za pomocą interfejsu API spark.conf.set, który stosuje się do operacji SQL i DataFrame. Konfiguracje Hadoop set na sparkContext muszą być set w konfiguracji klastra lub za pomocą notatnika. Dzieje się tak, ponieważ konfiguracje set na sparkContext nie są powiązane z sesjami użytkownika, ale mają zastosowanie do całego klastra.