マネージド ボリュームと外部ボリューム
この記事では、管理ボリュームと外部ボリュームの違いと、外部ボリュームの使用を選択する理由について説明します。 Databricks では、表形式以外のデータへのアクセスを格納および管理するための最も簡単なソリューションとして、管理ボリュームをお勧めします。
Unity カタログを使用してクラウド オブジェクト ストレージへのアクセスを構成する方法の詳細については、「 Connect to cloud object storage and services using Unity Catalogを参照してください。
管理ボリュームと外部ボリュームの動作の違い
管理ボリュームと外部ボリュームでは、Azure Databricks のツール、UI、API を使用する場合とほぼ同じ環境が提供されます。 これらのボリュームの主な違いは次のとおりです。
管理ボリュームは、フル マネージド ストレージ環境を提供します。 これは、次のことを意味します。
- 管理ボリューム内のファイルとの対話はすべて、Unity Catalog を経由する必要があります。
- ディレクトリの名前付けとデータ レイアウトは、Unity Catalog によって管理されます。 ディレクトリ名には、基になるクラウド オブジェクト ストレージ アカウントでの競合を回避するためのハッシュが含まれます。
- マネージド ボリュームを削除すると、Azure Databricks では 30 日以内に基になるデータが削除されます。
外部ボリュームは、クラウド オブジェクト ストレージにデータ ガバナンスをもたらします。 これは、次のことを意味します。
- Azure Databricks または外部システムのクラウド URI を使用して、外部ボリューム内のファイルと対話できます。
- 外部ボリューム内に作成されたすべてのディレクトリ、またはアップロードされたファイルは、作成時に指定された
LOCATION
に対して相対的です。 - 外部ボリュームを削除すると、Unity Catalog からボリュームが削除されますが、基になるデータは外部の場所では変更されません。
外部ボリュームを使用する理由
外部ボリュームを使うと、既存のクラウド オブジェクト ストレージのディレクトリに Unity Catalog データ ガバナンスを追加できます。 外部ボリュームのユース ケースとしては、次のようなものがあります。
- 移行なしでデータ ファイルにガバナンスを追加する。
- Azure Databricks によって取り込むかアクセスする必要がある他のシステムによって生成されたファイルを管理する。
- 他のシステムによってクラウド オブジェクト ストレージから直接アクセスする必要がある Azure Databricks によって生成されたデータを管理する。
Databricks では、外部ボリュームを使用して、Azure Databricks および外部システムによって読み取られた、または書き込まれた表形式以外のデータ ファイルを格納することをお勧めします。 Unity Catalog は、外部システムからのクラウド オブジェクト ストレージに対して直接実行される読み取りと書き込みを管理しないため、Azure Databricks の外部でデータ ガバナンス ポリシーが確実に尊重されるように、クラウド アカウントで追加のポリシーと資格証明を構成する必要があります。