ワークスペース オブジェクトの概要
この記事では、Azure Databricks ワークスペース オブジェクトの概要について説明します。 ワークスペース ブラウザーでペルソナにわたってワークスペース オブジェクトを作成、表示、整理できます。
ワークスペース資産の名前付けに関する注意
ワークスペース アセットの完全な名前は、ベース名とそのファイル拡張子で構成されます。 たとえば、ノートブックのファイル拡張子は、ノートブックの言語と形式に応じて .py
、.sql
、.scala
、.r
、.ipynb
になる場合があります。
ノートブック アセットを作成するとき、その基本名と完全名 (ファイル拡張子と連結されたベース名) は任意のワークスペース フォルダー内で一意である必要があります。 資産に名前を付けると、Databricks はファイル拡張子を追加して、この条件を満たしているかどうかを確認します。 完全な名前がフォルダー内の既存のファイルと一致する場合、その名前は許可されず、新しいノートブック名を選択する必要があります。 たとえば、「test
」という名前の Python ファイルと同じフォルダーに「test.py
」という名前の Python ノートブック (Python のソース形式で) を作成しようとした場合、許可されません。
クラスター
Azure Databricks Data Science & Engineering および Databricks Mosaic AI クラスターにより、運用 ETL パイプラインの実行、ストリーミング分析、アドホック分析、機械学習などのさまざまなユース ケースに対して統一したプラットフォームが提供されます。 クラスターは、Azure Databricks "コンピューティング リソース" の一種です。 その他のコンピューティング リソースの種類には、Azure Databricks SQL ウェアハウスがあります。
クラスターの管理と使用の詳細については、「コンピューティング」を参照してください。
ノートブック
ノートブックは、ファイルとテーブル、視覚化、説明テキストを操作する一連の実行可能なセル (コマンド) を含むドキュメントに対する Web ベースのインターフェイスです。 コマンドは、以前に実行された 1 つ以上のコマンドの出力を参照して、順番に実行されます。
ノートブックは、Azure Databricks でコードを実行するためのメカニズムの 1 つです。 もう 1 つのメカニズムは ジョブです。
ノートブックの管理と使用の詳細については、「Databricks ノートブックの概要」を参照してください。
ジョブ
ジョブは、Azure Databricks でコードを実行するためのメカニズムの 1 つです。 もう 1 つのメカニズムはノートブックです。
ジョブの管理と使用の詳細については、「ワークフローのスケジュールとオーケストレーション」を参照してください。
ライブラリ
ライブラリを使用すると、サードパーティ製またはローカルで構築されたコードを、クラスターで実行されているノートブックやジョブで使用できるようになります。
ライブラリの管理と使用の詳細については、「ライブラリ」を参照してください。
データ
Azure Databricks ワークスペースにマウントされた分散ファイル システムにデータをインポートし、Azure Databricks のノートブックとクラスターで操作できます。 さまざまな Apache Spark データ ソースを使用して、データにアクセスすることもできます。
データの読み込みの詳細については、「Databricks レイクハウスにデータを取り込む」を参照してください。
ファイル
重要
この機能はパブリック プレビュー段階にあります。
Databricks Runtime 11.3 LTS 以降では、Databricks ワークスペースで任意のファイルを作成して使用できます。 ファイルの種類には指定がありません。 一般的なファイルの種類の例を次に示します。
- カスタム モジュールで使用される
.py
ファイル。 .md
ファイル (例:README.md
)。.csv
またはその他の小さなデータ ファイル。.txt
ファイル。- ログ ファイル。
ファイルの使用方法の詳細については、「Azure Databricks 上でファイルを使用する」を参照してください。 Databricks ノートブックを使用して開発するときにファイルを使用してコードをモジュール化する方法については、「Databricks ノートブック間でコードを共有する」を参照してください
Git フォルダー
Git フォルダーとは、リモート Git リポジトリに同期することでコンテンツが共同でバージョン管理される Azure Databricks フォルダーです。 Databricks Git フォルダーを使用することで、Azure Databricks でノートブックを開発し、コラボレーションとバージョン コントロールのためにリモート Git リポジトリを使用することができます。
Repos の使用の詳細については、「Git と Databricks Git フォルダーの統合」を参照してください。
モデル
モデル とは、MLflow モデル レジストリに登録されているモデルを指します。 モデル レジストリは、MLflow モデルのライフサイクル全体を管理できる一元化されたモデル ストアです。 時系列のモデル系列、モデルのバージョン管理、ステージ切り替え、モデルとモデルのバージョンの注釈と説明が提供されます。
モデルの管理と使用の詳細については、「Unity Catalog 内でモデル ライフサイクルを管理する」を参照してください。
実験
MLflow 実験は、MLflow 機械学習モデルトレーニング実行の組織およびアクセス制御の主要な単位です。 すべての MLflow 実行は実験に属します。 各実験を使用すると、実行を視覚化、検索、比較したり、他のツールで分析のために成果物やメタデータをダウンロードして実行したりできます。
実験の管理と使用の詳細については、「MLflow 実験を使用してトレーニング実行を整理する」を参照してください。
クエリ
クエリは、ユーザーがデータと対話できるようにする SQL ステートメントです。 詳細については、「保存されたクエリへのアクセスと管理」を参照してください。
ダッシュボード
ダッシュボードは、クエリの視覚化と解説を提示するものです。 「ダッシュボード」または「レガシ ダッシュボード」を参照してください。
警告
アラートは、クエリによって返されたフィールドがしきい値に達したことを示す通知です。 詳細については、「Databricks SQL アラートとは」を参照してください。
ワークスペース オブジェクトへの参照
これまで、ユーザーは一部の Databricks API (/Workspace
) の %sh
パス プレフィックスを含める必要がありましたが、他 (%run
、REST API 入力) に対しては行いませんでした。
ユーザーは、/Workspace
プレフィックス付きのワークスペース パスをどこでも使用できます。 /Workspace
プレフィックスのないパスへの古い参照はリダイレクトされ、引き続き動作します。 すべてのワークスペース パスに /Workspace
プレフィックスを付けて、ボリュームと DBFS パスを区別することをお勧めします。
一貫性のある /Workspace
パス プレフィックスの動作の前提条件は次のとおりです。ワークスペースのルート レベルに /Workspace
フォルダーを指定することはできません。 ルート レベルに /Workspace
フォルダーがあり、この UX の改善を有効にする場合は、作成した /Workspace
フォルダーを削除するか、その名前を変更し、Azure Databricks アカウント チームにお問い合わせください。
ファイル、フォルダー、またはノートブックの URL を共有する
Azure Databricks ワークスペースでは、ワークスペース ファイル、ノートブック、フォルダーへの URL は次の形式になります。
ワークスペース ファイルの URL
https://<databricks-instance>/?o=<16-digit-workspace-ID>#files/<16-digit-object-ID>
ノートブックの URL
https://<databricks-instance>/?o=<16-digit-workspace-ID>#notebook/<16-digit-object-ID>/command/<16-digit-command-ID>
フォルダー (ワークスペースと Git) の URL
https://<databricks-instance>/browse/folders/<16-digit-ID>?o=<16-digit-workspace-ID>
これらのリンクは、現在のパス内のフォルダー、ファイル、またはノートブックが Git pull コマンドで更新された場合、または削除されて同じ名前で再作成された場合に切断される可能性があります。 ただし、次の形式のリンクに変更することで、適切なアクセス レベルを持つ他の Databricks ユーザーと共有するワークスペース パスに基づいてリンクを作成できます。
https://<databricks-instance>/?o=<16-digit-workspace-ID>#workspace/<full-workspace-path-to-file-or-folder>
フォルダー、ノートブック、ファイルへのリンクは、URL 内の ?o=<16-digit-workspace-ID>
の後のすべてをワークスペース ルートのファイル、フォルダー、またはノートブックへのパスに置き換えることで共有できます。 フォルダーへの URL を共有している場合は、元の URL からも /browse/folders/<16-digit-ID>
を削除します。
ファイル パスを取得するには、共有するワークスペース内のフォルダー、ノートブック、またはファイルを右クリックしてコンテキスト メニューを開き、[Copy URL/path]\(URL/パスのコピー\)>[完全なパス] を選択します。 コピーしたファイル パスの前に #workspace
を追加し、結果の文字列を ?o=<16-digit-workspace-ID>
の後に追加して、上記の URL 形式と一致するようにします。
URL の構成例 #1: フォルダー URL
ワークスペース フォルダーの URL https://<databricks-instance>/browse/folders/1111111111111111?o=2222222222222222
を共有するには、URL から browse/folders/1111111111111111
の部分文字列を削除します。 #workspace
に続いて、共有するフォルダーまたはワークスペース オブジェクトへのパスを追加します。
この場合、ワークスペースのパスはフォルダー /Workspace/Users/user@example.com/team-git/notebooks
へのパスです。 ワークスペースから完全なパスをコピーした後、共有可能なリンクを作成できるようになりました。
https://<databricks-instance>/?o=2222222222222222#workspace/Workspace/Users/user@example.com/team-git/notebooks
URL の構成例 2: ノートブックの URL
ノートブックの URL https://<databricks-instance>/?o=1111111111111111#notebook/2222222222222222/command/3333333333333333
を共有するには、#notebook/2222222222222222/command/3333333333333333
を削除します。 #workspace
に続いて、フォルダーまたはワークスペース オブジェクトへのパスを追加します。
この場合、ワークスペースのパスはノートブック /Workspace/Users/user@example.com/team-git/notebooks/v1.0/test-notebook
を指しています。 ワークスペースから完全なパスをコピーした後、共有可能なリンクを作成できるようになりました。
https://<databricks-instance>/?o=1111111111111111#workspace/Workspace/Users/user@example.com/team-git/notebooks/v1.0/test-notebook
これで、共有するファイル、フォルダー、またはノートブック パスの安定した URL が作成されました。 URL と識別子の詳細については、「ワークスペース オブジェクトの識別子を取得する」を参照してください。