ワークスペース ファイルとは
ワークスペース ファイルは、Azure Databricks ワークスペース ファイル ツリー内のファイルであり、次に示す種類のファイルではありません。
- ノートブック
- クエリ
- ダッシュボード
- Genie スペース
- 実験
これらの除外する種類を除き、ワークスペース ファイルには、任意のファイルの種類を指定できます。 たとえば、次のような場合です。
- カスタム モジュールで使用される
.py
ファイル。 .md
ファイル (例:README.md
)。.csv
またはその他の小さなデータ ファイル。.txt
ファイル。.whl
ライブラリ。- ログ ファイル。
ファイルの扱い方に関する推奨事項については、「ボリューム内のファイルおよびワークスペース ファイルに関する推奨事項」を参照してください。
Azure Databricks ワークスペース ファイル ツリーには、"Databricks Git フォルダー" と呼ばれる Git リポジトリにアタッチされたフォルダーを含めることができます。 ファイルの種類のサポートには、追加の制限がいくつかあります。 Git フォルダー (旧称 "Repos") でサポートされているファイルの種類の一覧については、「 Git フォルダーでサポートされている種類のアセンブリを参照してください。
重要
Databricks Runtime バージョン 11.2 では、ワークスペース ファイルはデフォルトですべての場所で有効になっています。 運用ワークロードでは、Databricks Runtime 11.3 LTS 以降を使用してください。 この機能にアクセスできない場合は、ワークスペース管理者に問い合わせてください。
ワークスペース ファイルに対して実行できる操作
Azure Databricks では、組み込みのファイル エディターなど、多くのワークスペース ファイルの種類に対してローカル開発と同様の機能を提供します。 すべてのファイルの種類のすべてのユース ケースがサポートされているわけではありません。
ノートブックの操作から使い慣れたパターンを使用して、ワークスペース ファイルへのアクセスを作成、編集、管理できます。 ローカル開発と同様に、ワークスペース ファイルからのライブラリ インポートには相対パスを使用できます。 詳細については、次のリンクを参照してください。
- ワークスペース ファイルの基本的な使用方法
- ワークスペース ファイルをプログラムで操作する
- Python と R のモジュールを使用する
- 画像を表示する
- Notebooks を管理する
- ファイル ACL
ワークスペース ファイルに格納されている init スクリプトには、特別な動作があります。 どの Databricks Runtime のバージョンにおいても、ワークスペース ファイルを使用して init スクリプトを格納および参照できます。 「ワークスペース ファイルに init スクリプトを格納する」を参照してください。
Note
Databricks Runtime 14.0 以降では、ローカルで実行されるコードの既定の現在の作業ディレクトリ (CWD) は、実行されているノートブックまたはスクリプトを含むディレクトリです。 これは、Databricks Runtime 13.3 LTS 以降の動作の変更です。 「既定の現在の作業ディレクトリとは?」を参照してください。
制限事項
- ワークフローでリモート Git リポジトリにあるソース コードを使っている場合、現在のディレクトリに書き込んだり、相対パスを使って書き込んだりすることはできません。 ほかの場所オプションにデータを書き込んでください。
- ワークスペース ファイルに保存するときに
git
コマンドを使用することはできません。 ワークスペース ファイルでは、.git
ディレクトリの作成は許可されません。 - Spark Executor (
spark.read.format("csv").load("file:/Workspace/Users/<user-folder>/data.csv")
など) を使用したワークスペース ファイルからの読み取りは、サーバーレス コンピューティングではサポートされていません。 - Executor はワークスペース ファイルに書き込めません。
- シンボリック リンクは、
/Workspace
ルート フォルダーの下のターゲット ディレクトリでサポートされています。 - Databricks Runtime 14.2 以前では、共有アクセス モードを使用しているクラスター上のユーザー定義関数 (UDF) からワークスペース ファイルにアクセスすることはできません。
ファイルのサイズ制限
- ワークスペース ファイルのサイズは 500 MB に制限されています。 この制限を超えるファイルをダウンロードまたは作成しようとする操作は失敗します。
ファイル アクセス許可の制限
/Workspace
のフォルダー内のファイルにアクセスするアクセス許可は、対話型コンピューティングの場合は 36 時間後、ジョブの場合は 30 日後に期限切れになります。 Databricks では、/Workspace ファイルへのアクセスが必要な場合は、ジョブとして長い実行を実行することをお勧めします。
ワークスペース ファイルを有効にする
Databricks ワークスペースでノートブック以外のファイルのサポートを有効にするには、Databricks ワークスペースにアクセスできるノートブックまたは他の環境から /api/2.0/workspace-conf REST API を呼び出します。 ワークスペース ファイルは既定で有効です。
Databricks ワークスペースでノートブック以外のファイルのサポートを有効にする、または再び有効にするには、/api/2.0/workspace-conf
を呼び出して enableWorkspaceFileSystem
キーの値を取得します。 true
に設定されている場合、ノートブック以外のファイルはワークスペースで既に有効になっています。
次の例は、ノートブックからこの API を呼び出して、ワークスペース ファイルが無効になっているかどうかを確認し、なっている場合は再び有効にする方法を示しています。