Databricks Connect for Python で従来の Jupyter Notebook を使用する
Note
この記事では、Databricks Runtime 13.3 LTS 以降用の Databricks Connect について説明します。
この記事では、Databricks Connect for Python で 従来の Jupyter Notebook を使用する方法について説明します。 Databricks Connect を使うと、一般的なノートブック サーバー、IDE、その他のカスタム アプリケーションを Azure Databricks クラスターに接続できます。 「Databricks Connect とは」を参照してください。
Note
Databricks Connect の使用を開始する前に、Databricks Connect クライアントを設定する必要があります。
クラシック Jupyter Notebookと Python で Databricks Connect を使用するには、次の手順に従います。
クラシック Jupyter Notebook をインストールするには、Python 仮想環境がアクティブな状態で、ターミナルまたはコマンド プロンプトから次のコマンドを実行します。
pip3 install notebook
Web ブラウザーでクラシック Jupyter Notebook を起動するには、アクティブな Python 仮想環境から次のコマンドを実行します。
jupyter notebook
クラシック Jupyter Notebook が Web ブラウザーに表示されない場合は、
localhost
または127.0.0.1
で始まる URL を仮想環境からコピーし、Web ブラウザーのアドレス バーに入力します。クラシック Jupyter Notebook の [Files] タブで、[New]>[Python 3 (ipykernel)] をクリックして、新しいノートブックを作成します。
ノートブックの最初のセルに、コード例または独自のコードを入力します。 独自のコードを使用する場合は、コード例に示すように、少なくとも
DatabricksSession
をインスタンス化する必要があります。ノートブックを実行するには、[Cell]>[Run All] をクリックします。 すべての Python コードはローカルで実行されますが、DataFrame 操作を含むすべての PySpark コードは、リモートの Azure Databricks ワークスペース内のクラスターで実行され、実行応答がローカル呼び出し元に返送されます。
ノートブックをデバッグするには、ノートブックの先頭に次のコード行を追加します。
from IPython.core.debugger import set_trace
次に、
set_trace()
を呼び出して、ノートブック実行のその時点にデバッグ ステートメントを入力します。 すべての Python コードはローカルでデバッグされますが、すべての PySpark コードはリモートの Azure Databricks ワークスペース内のクラスターで引き続き実行されます。 コア Spark エンジン コードをクライアントから直接デバッグすることはできません。クラシック Jupyter Notebook をシャットダウンするには、[File]>[Close and Halt] をクリックします。 クラシック Jupyter Notebook プロセスがターミナルまたはコマンド プロンプトで引き続き実行されている場合は、
Ctrl + c
を押してから、y
を入力して確定してこのプロセスを停止します。