Databricks Connect for Python で Visual Studio Code を使用する
Note
この記事では、Databricks Runtime 13.3 LTS 以降用の Databricks Connect について説明します。
この記事では、Databricks Connect for Python で Visual Studio Code を使用する方法について説明します。 Databricks Connect を使用すると、一般的な IDE、ノートブック サーバー、その他のカスタム アプリケーションを Azure Databricks クラスターに接続できます。 「Databricks Connect とは」を参照してください。 この記事の Scala バージョンについては、「Databricks Connect for Scala で Visual Studio Code を使用する」を参照してください。
Note
Databricks Connect の使用を開始する前に、Databricks Connect クライアントを設定する必要があります。
ヒント
Visual Studio Code 用の Databricks 拡張機能には、Databricks Runtime 13.3 LTS 以降用の Databricks Connect に対する組み込みのサポートが既にあります。 Visual Studio Code 用 Databricks 拡張機能の Databricks Connect を使用したコードのデバッグに関するページを参照してください。
Visual Studio Code と Python で Databricks Connect を使用するには、次の手順に従います。
Visual Studio Code を起動します。
お使いの Python 仮想環境を含むフォルダーを開きます ([ファイル] > [フォルダーを開く])。
Visual Studio Code ターミナル ([表示] > [ターミナル]) で、仮想環境をアクティブにします。
次のように現在の Python インタープリターを仮想環境から参照されるものに設定します。
- コマンド パレット ([表示] > [コマンド パレット]) で、「
Python: Select Interpreter
」と入力し、Enter キーを押します。 - 仮想環境から参照される Python インタープリターへのパスを選択します。
- コマンド パレット ([表示] > [コマンド パレット]) で、「
コード例または独自のコードを含む Python コード (
.py
) ファイルをフォルダーに追加します。 独自のコードを使用する場合は、コード例に示すように、少なくともDatabricksSession
をインスタンス化する必要があります。コードを実行するには、メイン メニューの [実行] > [デバッグなしで実行] をクリックします。 すべての Python コードはローカルで実行されますが、DataFrame 操作を含むすべての PySpark コードは、リモートの Azure Databricks ワークスペース内のクラスターで実行され、実行応答がローカル呼び出し元に返送されます。
コードをデバッグするには、次のようにします。
- Python コード ファイルを開いた状態で、実行中にコードを一時停止するブレークポイントを設定します。
- サイドバーの [実行とデバッグ] アイコンをクリックするか、メイン メニューで [表示] > [実行] の順にクリックします。
- [実行とデバッグ] ビューで、[実行とデバッグ] ボタンをクリックします。
- 画面の指示に従って、コードの実行とデバッグを開始します。
すべての Python コードはローカルでデバッグされますが、すべての PySpark コードはリモートの Azure Databricks ワークスペース内のクラスターで引き続き実行されます。 コア Spark エンジン コードをクライアントから直接デバッグすることはできません。
実行とデバッグの具体的な手順については、デバッガーの構成と実行とVS Code での Python デバッグに関するページを参照してください。