Partager via


Créer des informations d’identification de stockage pour la connexion à Cloudflare R2

Cet article explique comment créer des informations d’identification de stockage dans Unity Catalog pour se connecter à Cloudflare R2. Le stockage d’objets Cloudflare R2 n’entraîne aucun frais de sortie. La réplication ou la migration de données que vous partagez vers R2 vous permet de partager des données entre clouds et entre régions sans entraîner de frais de sortie.

Remarque

Unity Catalog prend en charge deux options de stockage cloud pour Azure Databricks : les conteneurs Azure Data Lake Storage Gen2 et les compartiments Cloudflare R2. Cloudflare R2 est destiné principalement aux cas d’usage Delta Sharing dans lesquels vous souhaitez éviter les frais de sortie de données du fournisseur de cloud. Azure Data Lake Storage Gen2 convient à la plupart des autres cas d’usage. Consultez Surveiller et gérer les coûts de sortie Delta Sharing (pour les fournisseurs) et Créer des informations d’identification de stockage pour la connexion à Azure Data Lake Storage Gen2.

Pour utiliser un compartiment R2 comme emplacement de stockage pour les données managées par Unity Catalog, vous devez créer des informations d’identification de stockage qui autorisent l’accès au compartiment R2 et créer un emplacement externe qui référence les informations d’identification de stockage et le chemin du compartiment :

  • Les informations d’identification de stockage encapsulent des informations d’identification cloud à long terme qui permettent d’accéder au stockage cloud.
  • Les emplacements externes contiennent une référence à des informations d’identification de stockage et à un chemin de stockage cloud.

Cet article est axé sur la création d’informations d’identification de stockage.

Pour plus d’informations, consultez Gérer l’accès au stockage cloud à l’aide du catalogue Unity.

Spécifications

  • Un espace de travail Databricks activé pour Unity Catalog.

  • Databricks Runtime 14.3 ou version ultérieure, ou SQL Warehouse 2024.15 ou version ultérieure.

    Si vous rencontrez le message d’erreur No FileSystem for scheme "r2”, votre calcul est probablement sur une version non prise en charge.

  • Un compte Cloudflare. Consultez https://dash.cloudflare.com/sign-up.

  • Rôle d’administrateur Cloudflare R2. Consultez la documentation sur les rôles Cloudflare.

  • CREATE STORAGE CREDENTIAL autorisation sur le metastore Unity Catalog attaché à l’espace de travail. Les administrateurs de compte et les administrateurs de metastore disposent de ce privilège par défaut.

Configurer un compartiment R2

  1. Créez un compartiment Cloudflare R2.

    Vous pouvez utiliser le tableau de bord Cloudflare ou l’outil Cloudflare Wrangler.

    Consultez la documentation « Bien démarrer » Cloudflare R2 ou la documentation Wrangler.

  2. Créez un jeton d’API R2 et appliquez-le au compartiment.

    Consultez la documentation sur l’authentification de l’API Cloudflare R2.

    Définissez les propriétés de jeton suivantes :

    • Permissions : Object Read & Write.

      Cette autorisation accorde l’accès en lecture et en écriture, ce qui est requis lorsque vous utilisez le stockage R2 comme cible de réplication, comme décrit dans Utiliser des réplicas Cloudflare R2 ou migrer le stockage vers R2.

      Si vous souhaitez appliquer un accès en lecture seule d’Azure Databricks vers le compartiment R2, vous pouvez créer un jeton qui accorde l’accès en lecture uniquement. Toutefois, cela peut être inutile, car vous pouvez marquer les informations d’identification de stockage en lecture seule et tout accès en écriture accordé par cette autorisation sera ignoré.

    • (Optional) TTL : durée de vie pendant laquelle vous souhaitez partager les données du compartiment avec les destinataires de données.

    • (Optional) Client IP Address Filtering : sélectionnez si vous souhaitez limiter l’accès réseau aux adresses IP de destinataire spécifiées. Si cette option est activée, vous devez spécifier les adresses IP de vos destinataires et placer en liste verte les adresses IP NAT du plan de contrôle Databricks pour la région de l’espace de travail.

    Adresses du plan de contrôle Azure Databricks.

  3. Copiez les valeurs du jeton d’API R2 :

    • ID de clé d’accès
    • Clé d’accès secrète

    Important

    Les valeurs de jeton ne sont affichées qu’une seule fois.

  4. Dans la page d’accueil R2, accédez à Account details et copiez l’ID de compte R2.

Créer les informations d’identification de stockage

  1. Dans Azure Databricks, connectez-vous à votre espace de travail.

  2. Cliquez sur Icône Catalogue Catalogue.

  3. Dans la page Accès rapide, cliquez sur le bouton Données > externes, accédez à l’onglet Informations d’identification , puis sélectionnez Créer des informations d’identification.

  4. Sélectionnez les informations d’identification du stockage.

  5. Pour Credential Type, sélectionnez Cloudflare API Token.

  6. Entrez un nom pour les informations d’identification et les valeurs suivantes que vous avez copiées lorsque vous avez configuré le compartiment R2 :

    • ID de compte
    • ID de clé d’accès
    • Clé d’accès secrète
  7. (Facultatif) Si vous souhaitez que les utilisateurs aient un accès en lecture seule aux emplacements externes qui utilisent cet identifiant de stockage, sélectionnez En lecture seule dans les Options avancées.

    Ne sélectionnez pas cette option si vous souhaitez utiliser les informations d’identification de stockage pour accéder au stockage R2 que vous utilisez en tant que cible de réplication, comme décrit dans Utiliser des réplicas Cloudflare R2 ou migrer le stockage vers R2.

    Pour plus d’informations, consultez Marquer des informations d’identification de stockage en lecture seule.

  8. Cliquez sur Créer.

  9. Dans la boîte de dialogue Storage credential created, copiez l’External ID.

  10. (Facultatif) Lier l’identifiant de stockage à des espaces de travail spécifiques.

    Par défaut, les informations d’identification de stockage peuvent être utilisées par tous les utilisateurs privilégiés sur tous les espaces de travail attachés au métastore. Si vous souhaitez autoriser l’accès uniquement à partir d’espaces de travail spécifiques, accédez à l’onglet Espaces de travail et attribuez des espaces de travail. Consultez (Facultatif) Attribuer un identifiant de stockage à des espaces de travail spécifiques.

Étape suivante : Créer l’emplacement externe

Consultez Créer un emplacement externe pour connecter le stockage cloud à Azure Databricks.