Migrieren zu Databricks Connect für Python
In diesem Artikel wird beschrieben, wie Sie von Databricks Connect für Databricks Runtime 12.2 LTS und früher zu Databricks Connect für Databricks Runtime ab Version 13.3 LTS für Python migrieren. Mit Databricks Connect können Sie beliebte IDEs, Notebookserver und benutzerdefinierte Anwendungen mit Azure Databricks-Clustern verbinden. Weitere Informationen finden Sie unter Was ist Databricks Connect?. Die Scala-Version dieses Artikels finden Sie unter Migrieren zu Databricks Connect für Scala.
Hinweis
Bevor Sie beginnen, Databricks Connect zu verwenden, müssen Sie den Databricks Connect-Client einrichten.
Befolgen Sie diese Anleitungen, um Ihr vorhandenes Python-Codeprojekt oder Ihre Codierungsumgebung von Databricks Connect für Databricks Runtime bis Version 12.2 LTS zu Databricks Connect für Databricks Runtime ab Version 13.3 LTS zu migrieren.
Installieren Sie die richtige Version von Python, wie in den Installationsanforderungen aufgeführt, damit sie Ihrem Azure Databricks-Cluster entspricht, sofern diese noch nicht lokal installiert ist.
Führen Sie ein Upgrade für Ihre virtuelle Python-Umgebung durch, um bei Bedarf die richtige Version von Python für Ihren Cluster zu verwenden. Anweisungen finden Sie in der Dokumentation des Anbieters Ihrer virtuellen Umgebung.
Wenn Ihre virtuelle Umgebung aktiviert ist, deinstallieren Sie PySpark aus Ihrer virtuellen Umgebung:
pip3 uninstall pyspark
Während Ihre virtuelle Umgebung immer noch aktiviert ist, deinstallieren Sie Databricks Connect für Databricks Runtime bis Version 12.2 LTS:
pip3 uninstall databricks-connect
Wenn Ihre virtuelle Umgebung immer noch aktiviert ist, installieren Sie Databricks Connect für Databricks Runtime ab Version 13.3 LTS:
pip3 install --upgrade "databricks-connect==14.0.*" # Or X.Y.* to match your cluster version.
Hinweis
Databricks empfiehlt, die Notation „Punkt-Sternchen“ anzufügen, um
databricks-connect==X.Y.*
anstelle vondatabricks-connect=X.Y
anzugeben, um sicherzustellen, dass das neueste Paket installiert ist. Dies ist zwar keine Anforderung, aber es hilft sicherzustellen, dass Sie die aktuellen unterstützten Features für diesen Cluster verwenden können.Aktualisieren Sie Ihren Python-Code, um die
spark
-Variable zu initialisieren (die eine Instanziierung derDatabricksSession
-Klasse darstellt, ähnlich wieSparkSession
in PySpark). Siehe Computekonfiguration für Databricks Connect.Migrieren Sie Ihre RDD-APIs, um DataFrame-APIs zu verwenden, und migrieren Sie Ihre
SparkContext
, um Alternativen zu verwenden.
Festlegen von Hadoop-Konfigurationen
Auf dem Client können Sie Hadoop-Konfigurationen mithilfe der spark.conf.set
-API festlegen, die für SQL- und DataFrame-Vorgänge gilt. Hadoop-Konfigurationen, die für sparkContext
festgelegt werden, müssen in der Clusterkonfiguration oder mithilfe eines Notebooks festgelegt werden. Dies liegt daran, dass die für sparkContext
festgelegten Konfigurationen nicht an Benutzersitzungen gebunden sind, sondern für den gesamten Cluster gelten.