Volumes managés vs externes
Cet article décrit les différences entre les volumes gérés et les volumes externes, ainsi que les raisons pour lesquelles vous pourriez choisir d’utiliser des volumes externes. Databricks recommande des volumes gérés comme solution la plus simple pour stocker et gérer l’accès aux données non tabulaires.
Pour plus d’informations sur l’utilisation du catalogue Unity pour configurer l’accès au stockage d’objets cloud, consultez Se connecter au stockage d’objets cloud et aux services à l’aide du catalogue Unity.
Différences de comportement entre les volumes gérés et les volumes externes
Les volumes gérés et les volumes externes fournissent une expérience presque identique lors de l’utilisation des outils, des IU et des API Azure Databricks. Les différences entre ces types de volumes sont les suivantes.
Les volumes gérés offrent une expérience de stockage complètement managée. Cela signifie :
- Toutes les interactions avec les fichiers dans les volumes gérés doivent passer par Unity Catalog.
- La dénomination de l’annuaire et la disposition des données sont managées par Unity Catalog. Les noms d’annuaire comprennent des codes de hachage pour éviter les conflits dans les comptes de stockage d’objets cloud sous-jacents.
- Lorsque vous supprimez un volume managé, Azure Databricks supprime les données sous-jacentes dans les 30 jours.
Les volumes externes apportent de la gouvernance des données au stockage d’objets cloud. Cela signifie :
- Vous pouvez utiliser des URI cloud dans Azure Databricks ou des systèmes externes pour interagir avec des fichiers dans les volumes externes.
- Tous les annuaires créés dans un volume externe ou des fichiers téléchargés sont relatifs à
LOCATION
spécifié lors de la création. - Lorsque vous supprimez un volume externe, vous supprimez le volume d’Unity Catalog, mais les données sous-jacentes restent inchangées dans l’emplacement externe.
Pourquoi utiliser des volumes externes ?
Les volumes externes vous permettent d’ajouter la gouvernance des données Unity Catalog aux répertoires de stockage d’objets cloud existants. Voici quelques cas d’usage pour les volumes externes :
- Ajout de la gouvernance aux fichiers de données sans migration.
- Gouvernance des fichiers produits par d’autres systèmes qui doivent être ingérés ou accessibles par Azure Databricks.
- Gouvernance des données produites par Azure Databricks qui doivent être accessibles directement à partir du stockage d’objets cloud par d’autres systèmes.
Databricks recommande d’utiliser des volumes externes pour stocker des fichiers de données non tabulaires lus ou écrits par des systèmes externes en plus d’Azure Databricks. Unity Catalog ne régit pas les lectures et les écritures effectuées directement sur le stockage d’objets cloud à partir de systèmes externes. Vous devez donc configurer des stratégies et des identifiants supplémentaires dans votre compte cloud pour vous assurer que les stratégies de gouvernance des données sont respectées en dehors d’Azure Databricks.