Partager via


Se connecter au stockage d’objets cloud et aux services à l’aide du catalogue Unity

Cet article fournit une vue d’ensemble des connexions de stockage cloud requises pour utiliser des données à l’aide de Unity Catalog, ainsi que des informations sur la façon dont Unity Catalog régit l’accès au stockage cloud et aux services cloud externes.

Remarque

Si votre espace de travail a été créé avant le 9 novembre 2023, il est possible qu’il ne soit pas activé pour Unity Catalog. Un administrateur de compte doit activer Unity Catalog pour votre espace de travail. Consultez Activer un espace de travail pour le Catalogue Unity.

Comment le catalogue Unity utilise-t-il le stockage cloud ?

Databricks recommande d’utiliser Unity Catalog pour gérer l’accès à toutes les données que vous avez stockées dans le stockage d’objets cloud. Unity Catalog fournit une suite d’outils pour configurer des connexions sécurisées au stockage d’objets cloud. Ces connexions fournissent l’accès pour effectuer les actions suivantes :

  • Ingérer des données brutes dans un lakehouse.
  • Créez et lisez des tables managées et des volumes managés de données non structurées dans le stockage cloud géré par le catalogue Unity.
  • Inscrivez ou créez des tables externes contenant des données tabulaires et des volumes externes contenant des données non structurées dans le stockage cloud géré à l’aide de votre fournisseur de cloud.
  • Lire et écrire des données non structurées (en tant que volumes catalogue Unity).

Pour être plus spécifique, Unity Catalog utilise le stockage cloud de deux manières principales :

  • Emplacements de stockage par défaut (ou « gérés ») pour les tables gérées et les volumes managés (données non structurées, non tabulaires) que vous créez dans Databricks. Ces emplacements de stockage managé peuvent être définis au niveau du metastore, du catalogue ou du schéma. Vous créez des emplacements de stockage managés dans votre fournisseur de cloud, mais leur cycle de vie est entièrement géré par le catalogue Unity.
  • Emplacements de stockage où les tables et volumes externes sont stockés. Il s’agit de tables et de volumes dont l’accès à partir d’Azure Databricks est géré par Unity Catalog, mais dont le cycle de vie des données et la disposition des fichiers sont gérés à l’aide de votre fournisseur de cloud et d’autres plateformes de données. En règle générale, les tables externes servent à inscrire de grandes quantités de données existantes dans Azure Databricks. Elles sont également si vous avez besoin d’un accès en écriture aux données à l’aide d’outils extérieurs à Azure Databricks.

Pour plus d’informations sur les tables et volumes managés et externes, consultez Qu’est-ce que les tables et les vues ? et Qu’est-ce que les volumes catalogue Unity ?.

Avertissement

Ne donnez pas aux utilisateurs finaux un accès de niveau de stockage pour les tables ou les volumes managés Unity Catalog. Cela compromet la sécurité et la gouvernance des données.

L’octroi aux utilisateurs d’un accès direct au niveau du stockage sur un emplacement de stockage externe dans Azure Data Lake Storage Gen2 ne respecte pas les autorisations accordées ou les audits gérés par Unity Catalog. L’accès direct contournera l’audit, la traçabilité et d’autres fonctionnalités de sécurité et de surveillance d’Unity Catalog, notamment le contrôle d’accès et les autorisations. Vous êtes responsable de la gestion de l’accès direct au stockage via Azure Data Lake Storage Gen2 et de vous assurer que les utilisateurs disposent des autorisations appropriées accordées via Fabric.

Évitez tous les scénarios qui accordent un accès en écriture direct au niveau du stockage pour les compartiments qui stockent des tables managées par Databricks. La modification, la suppression ou l’évolution d’objets, directement via le stockage, gérés à l’origine par Unity Catalog peuvent entraîner une altération des données.

Quels fournisseurs de stockage cloud sont pris en charge ?

Azure Databricks prend en charge les conteneurs Azure Data Lake Storage Gen2 et les compartiments Cloudflare R2 en tant qu’emplacements de stockage dans le cloud pour les ressources de données et d’IA enregistrées dans Unity Catalog. R2 est destiné principalement aux cas dans lesquels vous souhaitez éviter les frais de sortie de données, comme lors du partage Delta parmi les clouds et les régions. Pour plus d’informations, consultez Utiliser des réplicas Cloudflare R2 ou migrer le stockage vers R2.

Comment le catalogue Unity régit-t-il l’accès au stockage cloud ?

Pour gérer l’accès au stockage cloud sous-jacent qui contient des tables et des volumes, Unity Catalog utilise un objet sécurisable appelé emplacement externe, qui définit un chemin d’accès à un emplacement de stockage cloud et les informations d’identification requises pour accéder à cet emplacement. Ces informations d’identification sont, à son tour, définies dans un objet sécurisable Du catalogue Unity appelé informations d’identification de stockage. En accordant et en révoquant l’accès aux éléments sécurisables d’emplacement externe dans le catalogue Unity, vous contrôlez l’accès aux données dans l’emplacement de stockage cloud. En accordant et révoquant l’accès aux informations d’identification de stockage sécurisables dans le catalogue Unity, vous contrôlez la possibilité de créer des objets d’emplacement externe.

Pour plus d’informations, consultez Gérer l’accès au stockage cloud à l’aide du catalogue Unity.

Accès basé sur le chemin d’accès au stockage cloud

Bien que Unity Catalog prenne en charge l’accès basé sur les chemins d’accès aux tables externes et aux volumes externes à l’aide d’URI de stockage cloud, Databricks recommande aux utilisateurs de lire et d’écrire toutes les tables du catalogue Unity à l’aide de noms de tables et d’accéder aux données dans des volumes à l’aide /Volumes de chemins d’accès. Les volumes sont l’objet sécurisable que la plupart des utilisateurs Azure Databricks doivent utiliser pour interagir directement avec les données non-tabulaires dans le stockage d’objets cloud. Consultez Présentation des volumes Unity Catalog.

Meilleures pratiques pour le stockage cloud avec le catalogue Unity

Azure Databricks nécessite l’utilisation d’Azure Data Lake Storage Gen2 comme service de stockage Azure pour les données traitées dans Azure Databricks à l’aide de la gouvernance Unity Catalog. Azure Data Lake Storage Gen2 vous permet de séparer les coûts de stockage et de calcul et de tirer parti du contrôle d’accès affiné fourni par Unity Catalog. Si les données sont stockées dans OneLake (le lac de données Microsoft Fabric) et traitées par Databricks (en contournant Unity Catalog), cela engendre des coûts de stockage et de calcul groupés. Cela peut entraîner des coûts environ 3 fois plus élevés pour les lectures et 1,6 fois plus élevés pour les écritures par rapport à Azure Data Lake Storage Gen2 pour le stockage, la lecture et l’écriture de données. Le stockage Blob Azure est également incompatible avec Unity Catalog.

Fonctionnalité Stockage Blob Azure Azure Data Lake Storage Gen2 OneLake
Pris en charge par Unity Catalog X X
Nécessite un achat supplémentaire de capacité Fabric X X
Opérations prises en charge à partir de moteurs externes - Lire
- Écrire
- Lire
- Écrire
- Lecture (les lectures engendrent un coût 3 fois supérieur à celui de la lecture de données à partir d’Azure Data Lake Storage Gen2).
- Les écritures ne sont pas prises en charge.

Pour plus de détails, consultez la documentation OneLake.
Déploiement Regional Zones géographiques Global
Authentification Signature d’accès partagé Entra ID Signature d’accès partagé Entra ID Entra ID
Événements de stockage X
Suppression réversible
Contrôle d’accès RBAC RBAC, ABAC, ACL RBAC (table/dossier uniquement, ACL de raccourci non pris en charge)
Clés de chiffrement X
Niveaux d’accès Archive en ligne Chaud, sporadique, froid, archive Chaud uniquement

Comment Le catalogue Unity régit-t-il l’accès à d’autres services cloud ?

Unity Catalog régit l’accès aux services non-stockage à l’aide d’un objet sécurisable appelé informations d’identification de service. Les informations d’identification du service encapsulent des informations d’identification cloud à long terme qui fournissent l’accès à un service externe auquel les utilisateurs doivent se connecter à partir d’Azure Databricks.

Les informations d’identification du service ne sont pas destinées à régir l’accès au stockage cloud utilisé comme emplacement de stockage géré par le catalogue Unity ou à un emplacement de stockage externe. Pour ces cas d’usage, utilisez des informations d’identification de stockage, comme décrit dans Comment Unity Catalog régit-t-il l’accès au stockage cloud ?.

Pour plus d’informations, consultez :

Étapes suivantes

Si vous commencez simplement à utiliser Unity Catalog en tant qu’administrateur, consultez :

Si vous êtes un nouvel utilisateur et que votre espace de travail est déjà activé pour le catalogue Unity, consultez :

Pour en savoir plus sur la gestion de l’accès au stockage cloud, consultez :

Pour en savoir plus sur la gestion de l’accès aux services cloud, consultez :