次の方法で共有


Databricks Connect for Python で Visual Studio Code を使用する

Note

この記事では、Databricks Runtime 13.3 LTS 以降用の Databricks Connect について説明します。

この記事では、Databricks Connect for Python で Visual Studio Code を使用する方法について説明します。 Databricks Connect を使用すると、一般的な IDE、ノートブック サーバー、その他のカスタム アプリケーションを Azure Databricks クラスターに接続できます。 「Databricks Connect とは」を参照してください。 この記事の Scala バージョンについては、「Databricks Connect for Scala で Visual Studio Code を使用する」を参照してください。

Note

Databricks Connect の使用を開始する前に、Databricks Connect クライアントを設定する必要があります。

ヒント

Visual Studio Code 用の Databricks 拡張機能には、Databricks Runtime 13.3 LTS 以降用の Databricks Connect に対する組み込みのサポートが既にあります。 Visual Studio Code 用 Databricks 拡張機能の Databricks Connect を使用したコードのデバッグに関するページを参照してください。

Visual Studio Code と Python で Databricks Connect を使用するには、次の手順に従います。

  1. Visual Studio Code を起動します。

  2. お使いの Python 仮想環境を含むフォルダーを開きます ([ファイル] > [フォルダーを開く])。

  3. Visual Studio Code ターミナル ([表示] > [ターミナル]) で、仮想環境をアクティブにします。

  4. 次のように現在の Python インタープリターを仮想環境から参照されるものに設定します。

    1. コマンド パレット ([表示] > [コマンド パレット]) で、「Python: Select Interpreter」と入力し、Enter キーを押します。
    2. 仮想環境から参照される Python インタープリターへのパスを選択します。
  5. コード例または独自のコードを含む Python コード (.py) ファイルをフォルダーに追加します。 独自のコードを使用する場合は、コード例に示すように、少なくとも DatabricksSession をインスタンス化する必要があります。

  6. コードを実行するには、メイン メニューの [実行] > [デバッグなしで実行] をクリックします。 すべての Python コードはローカルで実行されますが、DataFrame 操作を含むすべての PySpark コードは、リモートの Azure Databricks ワークスペース内のクラスターで実行され、実行応答がローカル呼び出し元に返送されます。

  7. コードをデバッグするには、次のようにします。

    1. Python コード ファイルを開いた状態で、実行中にコードを一時停止するブレークポイントを設定します。
    2. サイドバーの [実行とデバッグ] アイコンをクリックするか、メイン メニューで [表示] > [実行] の順にクリックします。
    3. [実行とデバッグ] ビューで、[実行とデバッグ] ボタンをクリックします。
    4. 画面の指示に従って、コードの実行とデバッグを開始します。

    すべての Python コードはローカルでデバッグされますが、すべての PySpark コードはリモートの Azure Databricks ワークスペース内のクラスターで引き続き実行されます。 コア Spark エンジン コードをクライアントから直接デバッグすることはできません。

実行とデバッグの具体的な手順については、デバッガーの構成と実行VS Code での Python デバッグに関するページを参照してください。