Databricks Connect for Python に移行する
この記事では、Databricks Runtime 12.2 LTS 以下用の Databricks Connect から Databricks Runtime 13.3 LTS 以降用の Databricks Connect に Python を移行する方法について説明します。 Databricks Connect を使用すると、一般的な IDE、ノートブック サーバー、カスタム アプリケーションを Azure Databricks クラスターに接続できます。 「Databricks Connect とは」を参照してください。 この記事の Scala バージョンについては、「Databricks Connect for Scala に移行する」を参照してください。
Note
Databricks Connect の使用を開始する前に、Databricks Connect クライアントを設定必要があります。
Databricks Runtime 12.2 LTS 以下用の Databricks Connect から Databricks Runtime 13.3 LTS 以降用の Databricks Connect に既存の Python コード プロジェクトまたはコーディング環境を移行するには、次のガイドラインに従ってください。
ローカル環境に Python がまだインストールされていない場合は、Azure Databricks クラスターに適合するように、インストールの要件に記載されている正しいバージョンの Python をインストールします。
必要に応じて、クラスターに適合する正しいバージョンの Python を使用するように Python 仮想環境をアップグレードします。 手順については、仮想環境プロバイダーのドキュメントを参照してください。
仮想環境がアクティブな状態で、仮想環境から PySpark をアンインストールします。
pip3 uninstall pyspark
仮想環境がアクティブな状態のままで、Databricks Runtime 12.2 LTS 以下用の Databricks Connect をアンインストールしてください。
pip3 uninstall databricks-connect
仮想環境がアクティブな状態のままで、Databricks Runtime 13.3 LTS 以降用の Databricks Connect をインストールしてください。
pip3 install --upgrade "databricks-connect==14.0.*" # Or X.Y.* to match your cluster version.
Note
Databricks では、最新のパッケージがインストールされるように、
databricks-connect==X.Y.*
ではなくdatabricks-connect=X.Y
を指定する "ドットとアスタリスク" の表記を追加することをお勧めします。 これは要件ではありませんが、そのクラスターでサポートされている最新の機能を使用できるようにするのに役立ちます。spark
変数 (PySpark でのDatabricksSession
と同様に、SparkSession
クラスのインスタンス化を表す) を初期化するように Python コードを更新します。 Databricks Connect の Compute 構成を参照してください。DATAFrame API を使うように RDD API を移行し、代替手段を使うように
SparkContext
を移行します。
Hadoop 構成を設定する
クライアントでは、spark.conf.set
API を使用して Hadoop 構成を設定できます。これは、SQL と DataFrame の操作に適用されます。 sparkContext
に設定された Hadoop 構成は、クラスター構成に設定するか、ノートブックを使用する必要があります。 これは、sparkContext
に設定された構成はユーザー セッションに関連付けられるのではなく、クラスター全体に適用されるからです。