Azure Databricks でファイルを操作する

[アーティクル]
01/31/2025

Azure Databricks には、次の場所にあるファイルを操作するための複数のユーティリティと API があります。

Unity のカタログボリューム
ワークスペースファイル
クラウドオブジェクトストレージ
DBFS マウントと DBFS ルート
クラスターのドライバーノードに接続されているエフェメラルストレージ

この記事では、次のツールのこれらの場所にあるファイルを操作する例を示します。

Apache Spark
Spark SQL と Databricks SQL
Databricks ファイルシステムユーティリティ (dbutils.fs または %fs)
Databricks CLI（コマンドラインインターフェース）
Databricks REST API
Bash シェルコマンド (%sh)
%pip を使用したノートブックスコープのライブラリのインストール
パンダ
OSS Python ファイル管理および処理ユーティリティ

重要

FUSE データアクセスを必要とするファイル操作は、URI を使用してクラウドオブジェクトストレージに直接アクセスすることはできません。 Databricks では、Unity カタログボリュームを使用して FUSE のこれらの場所へのアクセスを構成することをお勧めします。

Scala では、Unity カタログと共有アクセスモードで構成されたコンピューティング上の Unity カタログボリュームとワークスペースファイルに対する FUSE がサポートされます。シングルユーザーアクセスモードと Databricks Runtime 14.3 以降で構成されたコンピューティングでは、Scala では、Scala コマンド "cat /Volumes/path/to/file".!!など、Scala から生成されたサブプロセスを除き、Unity カタログボリュームとワークスペースファイル用の FUSE がサポートされます。

Spark やその他の JVM プロセスは、Unity カタログをサポートするリーダーとライターを使用して、Unity カタログのボリュームまたはワークスペースファイルにのみアクセスできます。たとえば、Spark 構成で依存関係として JAR ファイルを指定したり、PySpark カスタムデータソースを使用したりすることはできません。ボリュームまたはワークスペースファイル内のファイルにアクセスする必要があるライブラリの JVM ワークロードがある場合は、Python またはシェルコマンド (%sh mv.など) を使用して、ファイルをコンピューティングローカルストレージにコピーします。 JVM を使用する %fs や dbutils.fs は使用しないでください。クラスターの開始時にファイルが存在する必要がある場合は、最初に init スクリプトを使用してファイルを移動します。「init スクリプトとは」を参照してください。

データにアクセスするための URI スキームを指定する必要がありますか?

Azure Databricks のデータアクセスパスは、次のいずれかの標準に従います。

URI スタイルのパス URI スキームを含めます。 Databricks ネイティブデータアクセスソリューションの場合、ほとんどのユースケースでは URI スキームは省略可能です。クラウドオブジェクトストレージ内のデータに直接アクセスする場合は、ストレージの種類に対して適切な URI スキームを指定する必要があります。
POSIX スタイルのパス、ドライバールート (/) に対するデータアクセスを提供します。 POSIX スタイルのパスにはスキームは必要ありません。 Unity カタログボリュームまたは DBFS マウントを使用して、クラウドオブジェクトストレージ内のデータへの POSIX スタイルのアクセスを提供できます。多くの ML フレームワークやその他の OSS Python モジュールでは FUSE が必要であり、POSIX スタイルのパスのみを使用できます。

POSIX パスの

Unity カタログボリューム内のファイルを操作する

Databricks では、Unity カタログボリュームを使用して、クラウドオブジェクトストレージに格納されている表形式以外のデータファイルへのアクセスを構成することをお勧めします。「Unity カタログのボリュームとは」について参照してください。

ツール	例
Apache Spark	`spark.read.format("json").load("/Volumes/my_catalog/my_schema/my_volume/data.json").show()`
Spark SQL と Databricks SQL	SELECT * FROM csv.`/Volumes/my_catalog/my_schema/my_volume/data.csv`; `LIST '/Volumes/my_catalog/my_schema/my_volume/';`
Databricks ファイルシステムユーティリティ	`dbutils.fs.ls("/Volumes/my_catalog/my_schema/my_volume/")` `%fs ls /Volumes/my_catalog/my_schema/my_volume/`
Databricks コマンドラインインターフェース (CLI)	`databricks fs cp /path/to/local/file dbfs:/Volumes/my_catalog/my_schema/my_volume/`
Databricks REST API	`POST https://<databricks-instance>/api/2.1/jobs/create` `{"name": "A multitask job", "tasks": [{..."libraries": [{"jar": "/Volumes/dev/environment/libraries/logging/Logging.jar"}],},...]}`
Bash シェルコマンド	`%sh curl http://<address>/text.zip -o /Volumes/my_catalog/my_schema/my_volume/tmp/text.zip`
ライブラリのインストール	`%pip install /Volumes/my_catalog/my_schema/my_volume/my_library.whl`
パンダ	`df = pd.read_csv('/Volumes/my_catalog/my_schema/my_volume/data.csv')`
オープンソースソフトウェア Python	`os.listdir('/Volumes/my_catalog/my_schema/my_volume/path/to/directory')`

手記

Databricks CLI を使用する場合は、dbfs:/ スキームが必要です。

ボリューム制限

ボリュームには、次の制限があります。

Zip ファイルや Excel ファイルの書き込みなど、直接追加または非連続 (ランダム) の書き込みはサポートされていません。直接追加ワークロードまたはランダム書き込みワークロードの場合は、まずローカルディスクで操作を実行してから、結果を Unity カタログボリュームにコピーします。例えば：
```
# python
import xlsxwriter
from shutil import copyfile

workbook = xlsxwriter.Workbook('/local_disk0/tmp/excel.xlsx')
worksheet = workbook.add_worksheet()
worksheet.write(0, 0, "Key")
worksheet.write(0, 1, "Value")
workbook.close()

copyfile('/local_disk0/tmp/excel.xlsx', '/Volumes/my_catalog/my_schema/my_volume/excel.xlsx')
```

スパースファイルはサポートされていません。スパースファイルをコピーするには、cp --sparse=neverを使用します。

$ cp sparse.file /Volumes/my_catalog/my_schema/my_volume/sparse.file
error writing '/dbfs/sparse.file': Operation not supported
$ cp --sparse=never sparse.file /Volumes/my_catalog/my_schema/my_volume/sparse.file

ワークスペースファイルを操作する

Databricks ワークスペースファイルは、ワークスペース内のファイルです。ワークスペースファイルを使用して、ノートブック、ソースコードファイル、データファイル、その他のワークスペース資産などのファイルを格納およびアクセスできます。ワークスペースファイルにはサイズ制限があるため、Databricks では、主に開発とテストのために小さなデータファイルのみをここに格納することをお勧めします。

ツール	例
Apache Spark	`spark.read.format("json").load("file:/Workspace/Users/<user-folder>/data.json").show()`
Spark SQL と Databricks SQL	SELECT * FROM json.`file:/Workspace/Users/<user-folder>/file.json`;
Databricks ファイルシステムユーティリティ	`dbutils.fs.ls("file:/Workspace/Users/<user-folder>/")` `%fs ls file:/Workspace/Users/<user-folder>/`
Databricks CLI	`databricks workspace list`
Databricks REST API	`POST https://<databricks-instance>/api/2.0/workspace/delete` `{"path": "/Workspace/Shared/code.py", "recursive": "false"}`
Bash シェルコマンド	`%sh curl http://<address>/text.zip -o /Workspace/Users/<user-folder>/text.zip`
ライブラリのインストール	`%pip install /Workspace/Users/<user-folder>/my_library.whl`
パンダ	`df = pd.read_csv('/Workspace/Users/<user-folder>/data.csv')`
オープンソースソフトウェア Python	`os.listdir('/Workspace/Users/<user-folder>/path/to/directory')`

手記

Databricks Utilities、Apache Spark、または SQL を使用する場合は、file:/ スキーマが必要です。

ワークスペースファイルの操作に関する制限事項については、「制限事項を参照してください。

削除されたワークスペースファイルはどこに移動しますか?

ワークスペースファイルを削除すると、ごみ箱に送信されます。 UI を使用して、ごみ箱からファイルを回復または完全に削除できます。

「オブジェクトを削除する」を参照してください。

クラウドオブジェクトストレージ内のファイルを操作する

Databricks では、Unity カタログボリュームを使用して、クラウドオブジェクトストレージ内のファイルへの安全なアクセスを構成することをお勧めします。 URI を使用してクラウドオブジェクトストレージ内のデータに直接アクセスする場合は、アクセス許可を構成する必要があります。「外部の場所、外部テーブル、および外部ボリュームの管理を参照してください。

次の例では、URI を使用してクラウドオブジェクトストレージ内のデータにアクセスします。

ツール	例
Apache Spark	`spark.read.format("json").load("abfss://container-name@storage-account-name.dfs.core.windows.net/path/file.json").show()`
Spark SQL と Databricks SQL	SELECT * FROM csv.`abfss://container-name@storage-account-name.dfs.core.windows.net/path/file.json`;`LIST 'abfss://container-name@storage-account-name.dfs.core.windows.net/path';`
Databricks ファイルシステムユーティリティ	`dbutils.fs.ls("abfss://container-name@storage-account-name.dfs.core.windows.net/path/")%fs ls abfss://container-name@storage-account-name.dfs.core.windows.net/path/`
Databricksのコマンドラインインターフェース (CLI)	サポートされていません
Databricks REST API	サポートされていません
Bash シェルコマンド	サポートされていません
ライブラリのインストール	`%pip install abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/library.whl`
パンダ	サポートされていません
オープンソースソフトウェア Python	サポートされていません

手記

DBFS マウントと DBFS ルート内のファイルを操作する

DBFS マウントは Unity カタログを使用してセキュリティ保護することはできず、Databricks では推奨されなくなりました。 DBFS ルートに格納されているデータには、ワークスペース内のすべてのユーザーがアクセスできます。 Databricks では、機密性の高いコードや実稼働のコードやデータを DBFS ルートに格納しないようにすることをお勧めします。「DBFS とは」を参照してください。.

ツール	例
Apache Spark	`spark.read.format("json").load("/mnt/path/to/data.json").show()`
Spark SQL と Databricks SQL	SELECT * FROM json.`/mnt/path/to/data.json`;
Databricks ファイルシステムユーティリティ	`dbutils.fs.ls("/mnt/path")` `%fs ls /mnt/path`
Databricks CLI	`databricks fs cp dbfs:/mnt/path/to/remote/file /path/to/local/file`
Databricks REST API	`POST https://<host>/api/2.0/dbfs/delete --data '{ "path": "/tmp/HelloWorld.txt" }'`
Bash シェルコマンド	`%sh curl http://<address>/text.zip > /dbfs/mnt/tmp/text.zip`
ライブラリのインストール	`%pip install /dbfs/mnt/path/to/my_library.whl`
パンダ	`df = pd.read_csv('/dbfs/mnt/path/to/data.csv')`
オープンソースソフトウェア (OSS) Python	`os.listdir('/dbfs/mnt/path/to/directory')`

手記

Databricks CLI を使用する場合は、dbfs:/ スキームが必要です。

ドライバーノードに接続されているエフェメラルストレージ内のファイルを操作する

ドライバーノードに接続されているエフェメラルストレージは、POSIX ベースのパスアクセスが組み込まれたブロックストレージです。この場所に格納されているデータは、クラスターが終了または再起動すると消えます。

ツール	例
Apache Spark	サポートされていません
Spark SQL と Databricks SQL	サポートされていません
Databricks ファイルシステムユーティリティ	`dbutils.fs.ls("file:/path")` `%fs ls file:/path`
Databricks コマンドラインインターフェース (CLI)	サポートされていません
Databricks REST API	サポートされていません
Bash シェルコマンド	`%sh curl http://<address>/text.zip > /tmp/text.zip`
ライブラリのインストール	サポートされていません
パンダ	`df = pd.read_csv('/path/to/data.csv')`
OSS Python	`os.listdir('/path/to/directory')`

手記

Databricks Utilities を使用する場合は、file:/ スキーマが必要です。

エフェメラルストレージからボリュームにデータを移動する

Apache Spark を使用して、一時ストレージにダウンロードまたは保存されたデータにアクセスできます。エフェメラルストレージはドライバーに接続され、Spark は分散処理エンジンであるため、すべての操作がここでデータに直接アクセスできるわけではありません。ドライバーファイルシステムから Unity カタログボリュームにデータを移動する必要があるとします。その場合は、次の例のように、マジックコマンドまたは Databricks ユーティリティを使用してファイルをコピーできます。

dbutils.fs.cp ("file:/<path>", "/Volumes/<catalog>/<schema>/<volume>/<path>")

%sh cp /<path> /Volumes/<catalog>/<schema>/<volume>/<path>

%fs cp file:/<path> /Volumes/<catalog>/<schema>/<volume>/<path>

その他のリソース

ローカルファイルのアップロードまたは Azure Databricks へのインターネットファイルのダウンロードの詳細については、「Azure Databricksにファイルをアップロードする」を参照してください。

次の方法で共有

Azure Databricks でファイルを操作する

データにアクセスするための URI スキームを指定する必要がありますか?

Unity カタログボリューム内のファイルを操作する

ボリューム制限

ワークスペースファイルを操作する

削除されたワークスペースファイルはどこに移動しますか?

クラウドオブジェクトストレージ内のファイルを操作する

DBFS マウントと DBFS ルート内のファイルを操作する

ドライバーノードに接続されているエフェメラルストレージ内のファイルを操作する

エフェメラルストレージからボリュームにデータを移動する

その他のリソース

フィードバック

その他のリソース

次の方法で共有

Azure Databricks でファイルを操作する

データにアクセスするための URI スキームを指定する必要がありますか?

Unity カタログ ボリューム内のファイルを操作する

ボリューム制限

ワークスペース ファイルを操作する

削除されたワークスペース ファイルはどこに移動しますか?

クラウド オブジェクト ストレージ内のファイルを操作する

DBFS マウントと DBFS ルート内のファイルを操作する

ドライバー ノードに接続されているエフェメラル ストレージ内のファイルを操作する

エフェメラル ストレージからボリュームにデータを移動する

その他のリソース

フィードバック

その他のリソース

Unity カタログボリューム内のファイルを操作する

ワークスペースファイルを操作する

削除されたワークスペースファイルはどこに移動しますか?

クラウドオブジェクトストレージ内のファイルを操作する

ドライバーノードに接続されているエフェメラルストレージ内のファイルを操作する

エフェメラルストレージからボリュームにデータを移動する