Azure Data Lake Storage Gen2 と Blob Storage に接続する

[アーティクル]
11/21/2024

Note

この記事では、Azure Data Lake Storage Gen2 へのアクセスを構成するための従来のパターンについて説明します。 Databricks は、Unity Catalog を使用して、ファイルを直接操作するための Azure Data Lake Storage Gen2 とボリュームへのアクセスを構成することを推奨しています。 Unity カタログを使用したクラウドオブジェクトストレージとサービスへの接続を参照してください。

この記事では、Azure Databricks から Azure Data Lake Storage Gen2 と Blob Storage に接続する方法について説明します。

Note

従来の Windows Azure Storage (WASB) ドライバーは非推奨になっています。 ABFS には WASB よりも多くの利点があります。 ABFS に関する Azure ドキュメントを参照してください。従来の WASB ドライバーの使用に関するドキュメントについては、「WASB で Azure Blob Storage に接続する (レガシ)」をご覧ください。
Azure では、Azure Data Lake Storage Gen1 の保留中の提供終了が発表されています。 Azure Databricks では、Azure Data Lake Storage Gen1 から Azure Data Lake Storage Gen2 にすべてのデータを移行することをお勧めします。まだ移行していない場合は、「Azure Databricks から Azure Data Lake Storage Gen1 にアクセスする」をご覧ください。

Azure 資格情報を使用して Azure Data Lake Storage Gen2 または Blob Storage に接続する

次の資格情報を使用して、Azure Data Lake Storage Gen2 または Blob Storage にアクセスできます。

OAuth 2.0 と Microsoft Entra ID サービスプリンシパル: Databricks では、Microsoft Entra ID サービスプリンシパルを使用して Azure Data Lake Storage Gen2 に接続することをお勧めします。 Microsoft Entra ID サービスプリンシパルを作成し、Azure Storage アカウントへのアクセスを提供するには、サービスプリンシパルと Microsoft Entra ID (旧称 Azure Active Directory) を使用してストレージにアクセスする方法に関するページを参照してください。

Microsoft Entra ID サービスプリンシパルを作成するには、Microsoft Entra ID での Application Administrator ロールまたは Application.ReadWrite.All アクセス許可が必要です。ストレージアカウントにロールを割り当てるには、所有者またはストレージアカウントに対するユーザーアクセス管理者 Azure RBAC ロールを持つユーザーである必要があります。

重要

Blob Storage では、Microsoft Entra ID サービスプリンシパルはサポートされていません。
Shared Access Signature (SAS): ストレージ SAS トークンを使用して Azure ストレージにアクセスできます。 SAS を使用すると、きめ細かなアクセス制御を備えた一時的なトークンを使用して、ストレージアカウントへのアクセスを制限できます。

自分自身がストレージアカウント、コンテナー、またはファイルに対して持つ SAS トークンアクセス許可のみ付与できます。
アカウントキー: ストレージアカウントアクセスキーを使用して、Azure Storage へのアクセスを管理できます。ストレージアカウントアクセスキーは、ストレージアカウントの構成とデータへのフルアクセスを提供します。 Databricks では、アカウントキーではなく Microsoft Entra ID サービスプリンシパルまたは SAS トークンを使って Azure Storage に接続することをお勧めします。

アカウントのアクセスキーを表示するには、ストレージアカウントに対する所有者、共同作成者、またはストレージアカウントキーオペレーターサービスロールが必要です。

Databricks では、すべての資格情報の格納にシークレットスコープを使うことをお勧めします。ワークスペース内のユーザー、サービスプリンシパル、グループにシークレットスコープを読み取るアクセス権を付与することができます。これにより、ユーザーが Azure ストレージにアクセスできるようにしながら、Azure 資格情報を保護します。シークレットスコープを作成するには、「シークレットスコープの管理」を参照してください。

Spark プロパティを設定して Azure ストレージにアクセスする Azure サインイン情報を構成する

Spark プロパティを設定して、Azure ストレージにアクセスするための Azure 資格情報を構成できます。資格情報のスコープは、クラスターまたはノートブックのいずれかに設定できます。クラスターのアクセス制御とノートブックのアクセス制御の両方を一緒に使用して、Azure ストレージへのアクセスを保護します。「コンピューティングのアクセス許可」と「Databricks ノートブックを使用して共同作業する」をご覧ください。

Note

Microsoft Entra ID サービスプリンシパルを使って、SQL ウェアハウスから Azure Storage にアクセスすることもできます。詳細については、「データアクセス構成を有効にする」を参照してください。

Spark プロパティを設定するには、クラスターの Spark 構成またはノートブックで次のスニペットを使用します。

Azure サービスプリンシパル

クラスターの Spark 構成を設定するには、次のフォーマットを使用します。

spark.hadoop.fs.azure.account.auth.type.<storage-account>.dfs.core.windows.net OAuth
spark.hadoop.fs.azure.account.oauth.provider.type.<storage-account>.dfs.core.windows.net org.apache.hadoop.fs.azurebfs.oauth2.ClientCredsTokenProvider
spark.hadoop.fs.azure.account.oauth2.client.id.<storage-account>.dfs.core.windows.net <application-id>
spark.hadoop.fs.azure.account.oauth2.client.secret.<storage-account>.dfs.core.windows.net {{secrets/<secret-scope>/<service-credential-key>}}
spark.hadoop.fs.azure.account.oauth2.client.endpoint.<storage-account>.dfs.core.windows.net https://login.microsoftonline.com/<directory-id>/oauth2/token

次の例に示すようにノートブックで spark.conf.set を使用できます。

service_credential = dbutils.secrets.get(scope="<secret-scope>",key="<service-credential-key>")

spark.conf.set("fs.azure.account.auth.type.<storage-account>.dfs.core.windows.net", "OAuth")
spark.conf.set("fs.azure.account.oauth.provider.type.<storage-account>.dfs.core.windows.net", "org.apache.hadoop.fs.azurebfs.oauth2.ClientCredsTokenProvider")
spark.conf.set("fs.azure.account.oauth2.client.id.<storage-account>.dfs.core.windows.net", "<application-id>")
spark.conf.set("fs.azure.account.oauth2.client.secret.<storage-account>.dfs.core.windows.net", service_credential)
spark.conf.set("fs.azure.account.oauth2.client.endpoint.<storage-account>.dfs.core.windows.net", "https://login.microsoftonline.com/<directory-id>/oauth2/token")

元

<secret-scope> を Databricks シークレットスコープ名に置き換えます。
<service-credential-key> をクライアントシークレットを含むキーの名前に置き換えます。
<storage-account> は Azure ストレージアカウントの名前に置き換えます。
<application-id> を Microsoft Entra ID アプリケーションのアプリケーション (クライアント) ID に置き換えます。
<directory-id> を Microsoft Entra ID アプリケーションのディレクトリ (テナント) ID に置き換えます。

SAS トークン

同じ Spark セッション内の複数のストレージアカウント用に SAS トークンを構成できます。

spark.conf.set("fs.azure.account.auth.type.<storage-account>.dfs.core.windows.net", "SAS")
spark.conf.set("fs.azure.sas.token.provider.type.<storage-account>.dfs.core.windows.net", "org.apache.hadoop.fs.azurebfs.sas.FixedSASTokenProvider")
spark.conf.set("fs.azure.sas.fixed.token.<storage-account>.dfs.core.windows.net", dbutils.secrets.get(scope="<scope>", key="<sas-token-key>"))

元

<storage-account> は、Azure ストレージアカウントの名前に置き換えます。
<scope> は、Azure Databricks シークレットスコープの名前に置き換えます。
<sas-token-key> は、Azure ストレージ SAS トークンが含まれるキーの名前に置き換えます。

アカウントキー

spark.conf.set(
    "fs.azure.account.key.<storage-account>.dfs.core.windows.net",
    dbutils.secrets.get(scope="<scope>", key="<storage-account-access-key>"))

元

<storage-account> は、Azure ストレージアカウントの名前に置き換えます。
<scope> は、Azure Databricks シークレットスコープの名前に置き換えます。
<storage-account-access-key> は、Azure ストレージアカウントのアクセスキーが含まれるキーの名前に置き換えます。

Azure ストレージへのアクセス

Azure ストレージコンテナーにアクセスするための資格情報を適切に構成したら、URI を使ってストレージアカウント内のリソースを操作できます。 Databricks では、セキュリティを強化するために abfss ドライバーを使うことが推奨されます。

spark.read.load("abfss://<container-name>@<storage-account-name>.dfs.core.windows.net/<path-to-data>")

dbutils.fs.ls("abfss://<container-name>@<storage-account-name>.dfs.core.windows.net/<path-to-data>")

CREATE TABLE <database-name>.<table-name>;

COPY INTO <database-name>.<table-name>
FROM 'abfss://container@storageAccount.dfs.core.windows.net/path/to/folder'
FILEFORMAT = CSV
COPY_OPTIONS ('mergeSchema' = 'true');

ノートブックの例

ADLS Gen2 OAuth 2.0 と Microsoft Entra ID (旧称 Azure Active Directory) サービスプリンシパルノートブック

ノートブックを入手

Azure Data Lake Storage Gen2 の既知の問題

Azure portal を使用して作成されたストレージコンテナーにアクセスしようとすると、下記のエラーが表示されることがあります。

StatusCode=404
StatusDescription=The specified filesystem does not exist.
ErrorCode=FilesystemNotFound
ErrorMessage=The specified filesystem does not exist.

階層型名前空間が有効になっている場合は、Azure portal を使用してコンテナーを作成する必要はありません。この問題が発生した場合は、Azure portal を使用して BLOB コンテナーを削除してください。数分後に、コンテナーにアクセスできます。 abfss URI を変更して別のコンテナーを使用することもできますが、このコンテナーが Azure portal を使用して作成されていないことが条件です。

Microsoft ドキュメントの「Azure Data Lake Storage Gen2 に関する既知の問題」を参照してください。

Azure Databricks のデータの格納とアクセスに推奨されないパターン

非推奨のストレージパターンを次に示します。

Databricks では、外部データの場所を Databricks ファイルシステムにマウントすることは推奨されなくなりました。「Azure Databricks へのクラウドオブジェクトストレージのマウント」を参照してください。
Databricks では、Azure Data Lake Storage Gen2 で資格情報パススルーを使用することは推奨されなくなりました。「Microsoft Entra ID 資格情報パススルーを使用して Azure Data Lake Storage にアクセスする (レガシ)」を参照してください。

次の方法で共有

Azure Data Lake Storage Gen2 と Blob Storage に接続する

Azure 資格情報を使用して Azure Data Lake Storage Gen2 または Blob Storage に接続する

Spark プロパティを設定して Azure ストレージにアクセスする Azure サインイン情報を構成する

Azure サービスプリンシパル

SAS トークン

アカウントキー

Azure ストレージへのアクセス

ノートブックの例

ADLS Gen2 OAuth 2.0 と Microsoft Entra ID (旧称 Azure Active Directory) サービスプリンシパルノートブック

Azure Data Lake Storage Gen2 の既知の問題

Azure Databricks のデータの格納とアクセスに推奨されないパターン

フィードバック

その他のリソース

次の方法で共有

Azure Data Lake Storage Gen2 と Blob Storage に接続する

Azure 資格情報を使用して Azure Data Lake Storage Gen2 または Blob Storage に接続する

Spark プロパティを設定して Azure ストレージにアクセスする Azure サインイン情報を構成する

Azure サービス プリンシパル

SAS トークン

アカウント キー

Azure ストレージへのアクセス

ノートブックの例

ADLS Gen2 OAuth 2.0 と Microsoft Entra ID (旧称 Azure Active Directory) サービス プリンシパル ノートブック

Azure Data Lake Storage Gen2 の既知の問題

Azure Databricks のデータの格納とアクセスに推奨されないパターン

フィードバック

その他のリソース

Azure サービスプリンシパル

アカウントキー

ADLS Gen2 OAuth 2.0 と Microsoft Entra ID (旧称 Azure Active Directory) サービスプリンシパルノートブック