Visual Studio Code 用 Databricks 拡張機能を使用した Databricks プロジェクトの構成
Visual Studio Code 用 Databricks 拡張機能では、拡張機能パネル内に [構成] ビューが用意されており、Databricks プロジェクトの設定を簡単に構成および更新できます。 これらの機能に含まれるものは、ターゲット ワークスペース デプロイ セレクター、認証とコンピューティングの簡単な構成、ワークスペース フォルダーの同期、およびデバッグに必要な Python 仮想環境をアクティブ化するための簡単な手順です。
Visual Studio Code 用 Databricks 拡張機能内の [構成] ビューは、プロジェクトを作成または Databricks プロジェクトに移行すると使用できます。 「新しい Databricks プロジェクトを作成する」を参照してください。
Note
Visual Studio Code 用 Databricks 拡張機能の以前のバージョンでは、プロジェクト JSON ファイルで構成設定が定義され、環境変数はターミナルで設定されていました。 リリース バージョンでは、プロジェクトと環境の構成は databricks.yml
ファイルと databricks.env
ファイルにあります。
プロジェクトが Databricks アセット バンドルの場合、Databricks 拡張機能 UI には、バンドル リソースと変数を管理するための Bundle リソース エクスプローラーとバンドル変数ビューも用意されています。 「Databricks アセット バンドル拡張機能の機能」を参照してください。
ターゲット デプロイ ワークスペースの変更
Databricks プロジェクトのデプロイ ターゲットを選択または切り替える (たとえば、dev
ターゲットから prod
ターゲットに切り替える) には、次の操作を行います。
Databricks 拡張機能パネルの [構成] ビューで、ターゲットに関連付けられている歯車アイコン ([ Databricks アセット バンドル ターゲットの選択]) をクリックします。
[コマンド パレット] で、目的のデプロイ ターゲットを選択します。
ターゲットが設定されると、ホストとデプロイ モードが表示されます。 Databricks アセット バンドルのデプロイ モードの詳細については、「Databricks アセット バンドルのデプロイ モード」を参照してください。
ワークスペース ホストは、プロジェクトに関連付けられている databricks.yml
構成ファイルのターゲット workspace
設定を変更することで変更できます。 「targets」を参照してください。
Note
次の Visual Studio Code 用 Databricks 拡張機能の機能は、ターゲット デプロイ モードが開発の場合にのみ使用できます。
- バンドル ジョブにアタッチされた開発クラスターを使用する
- ワークスペース フォルダー ファイルを同期する
- 対話型開発クラスターを選択する
プロジェクトの Databricks プロファイルを構成する
Databricks プロジェクトを作成する場合、またはプロジェクトを Databricks プロジェクトに移行する場合は、Databricks への接続に使用される認証設定を含むプロファイルを構成します。 使用する認証プロファイルを変更する場合は、[構成] ビューで AuthType に関連付けられている歯車アイコンをクリックします。
Visual Studio Code 用 Databricks 拡張機能の認証について詳しくは、「Visual Studio Code 用 Databricks 拡張機能の認証セットアップ」を参照してください。
コードとジョブを実行するためのクラスターを選択する
Visual Studio Code 用 Databricks 拡張機能を使用すると、既存の Azure Databricks クラスターを選択したり、コードとジョブを実行するための新しい Azure Databricks クラスターを作成したりできます。 コンピューティングに接続すると、クラスターの ID、Databricks Runtime バージョン、作成者、状態、アクセス モードが表示されます。 また、クラスターを起動および停止したり、クラスターのページ詳細に直接移動したりすることもできます。
ヒント
ジョブ クラスターの起動を待機しない場合は、クラスターの選択肢のすぐ下にある [バンドル内のジョブ クラスターをオーバーライドする] をオンにし、選択したクラスターを使用して開発モードでバンドル ジョブを実行します。
既存のクラスターを使用する
既存の Azure Databricks クラスターを使用する場合は、次の操作を行います。
[構成] ビューで、[クラスター] の横にある [クラスターの選択] または 歯車 ([クラスターの構成]) アイコンをクリックします。
[コマンド パレット] で、使用するクラスターを選択します。
新しいクラスターを作成する
既存の Azure Databricks クラスターがない場合、または新しいクラスターを作成する場合は、次の操作を行います。
[構成] ビューで、[クラスター] の横にある歯車 ([クラスターの構成]) アイコンをクリックします。
コマンド パレットで、[新しいクラスターの作成] をクリックします。
外部 Web サイト (Azure Databricks ワークスペース) を開くよう求められたら、[開く] をクリックします。
メッセージが表示されたら、Azure Databricks ワークスペースにサインインします。
手順に従ってクラスターを作成します。
注意
Databricks では、パーソナル コンピューター クラスターを作成することをお勧めします。 これにより、ワークロードがすぐに実行され始め、コンピューティング管理のオーバーヘッドを最小限に抑えることができます。
クラスターが作成されて実行されたら、Visual Studio Code に戻ります。
[構成] ビューで、[クラスター] の横にある歯車 ([クラスターの構成]) アイコンをクリックします。
コマンド パレットで、使用するクラスターをクリックします。
ワークスペース フォルダーを Databricks と同期する
Databricks 拡張機能パネルの [構成] ビューで、ワークスペース フォルダーに関連付けられている同期アイコン ([同期の開始]) をクリックすると、Databricks プロジェクトに関連付けられているリモート Databricks ワークスペース フォルダーを同期できます。
Note
この Visual Studio Code 用 Databricks 拡張機能は、この拡張機能によって作成されたワークスペース ディレクトリでのみ動作します。 プロジェクト内の既存のワークスペース ディレクトリは、この拡張機能によって作成されたものでない限り使用できません。
Databricks のワークスペース ビューに移動するには、ワークスペース フォルダーに関連付けられている外部リンク アイコン ([外部リンクを開く]) をクリックします。
この拡張機能は、プロジェクトに関連付けられている Databricks アセット バンドル構成の workspace
マッピングの file_path
設定に基づいて、使用する Azure Databricks ワークスペース フォルダーを決定します。 「ワークスペース」を参照してください。
Note
Visual Studio Code 用 Databricks 拡張機能は、ローカルの Visual Studio Code プロジェクトからリモートの Azure Databricks ワークスペース内の関連するワークスペース フォルダーへの一方向のファイル変更の自動同期のみを実行します。 このリモート ワークスペース ディレクトリ内のファイルは、一時的なものです。 リモート ワークスペース内からこれらのファイルの変更を開始しないでください。これらの変更はローカル プロジェクトに同期されないからです。
以前のバージョンの Visual Studio Code 用 Databricks 拡張機能のワークスペース ディレクトリ同期機能の使用方法の詳細については、「Visual Studio Code 用 Databricks 拡張機能のワークスペース ディレクトリを選択する」を参照してください。
Python 環境と Databricks Connect を設定する
[構成] ビューの [Python 環境] セクションでは、Python 仮想開発環境のセットアップと、コードとノートブックセルを実行およびデバッグするための Databricks Connect のインストールを簡単に行うことができます。 Python 仮想環境では、プロジェクトで互換性のあるバージョンの Python と Python パッケージ (この場合は Databricks Connect パッケージ) が使用されているかどうかを確認できます。
プロジェクトの Python 仮想環境を設定するには、拡張機能パネルの [構成] ビューで次の操作を行います。
- [Python 環境] の下にある赤い [仮想環境のアクティブ化] 項目をクリックします。
- [コマンド パレット] で、Venv または Conda を選択します。
- インストールする依存関係を選択します (存在する場合)。
環境を変更するには、アクティブ環境に関連付けられている歯車アイコン ([仮想環境の変更]) をクリックします。
Visual Studio Code 内でのコードとノートブックの実行とデバッグを可能にする Databricks Connect のインストールの詳細については、「Visual Studio Code 用 Databricks 拡張機能の Databricks Connect を使用したコードのデバッグ」を参照してください。