Configurer l'accès aux données pour l'ingestion
Cet article décrit comment les utilisateurs administrateurs peuvent configurer l'accès aux données dans un conteneur dans Azure Data Lake Storage Gen2 (ADLS Gen2) afin que les utilisateurs d'Azure Databricks puissent charger des données d'ADLS Gen2 dans une table dans Azure Databricks.
Cet article décrit les méthodes suivantes pour configurer un accès sécurisé aux données sources :
(Recommandé) Créez un volume Unity Catalog.
Créez un emplacement externe Unity Catalog avec des informations d'identification de stockage.
Lancez une ressource de calcul qui utilise un principal de service.
Générez des informations d'identification temporaires (un jeton SAS Blob).
Avant de commencer
Avant de configurer l'accès aux données dans ADLS Gen2, assurez-vous de disposer des éléments suivants :
Données dans un conteneur dans votre compte de stockage Azure. Pour créer un conteneur, consultez Créer un conteneur dans la documentation du stockage Azure.
Pour accéder aux données à l'aide d'un volume Unity Catalog (recommandé), le privilège
READ VOLUME
sur le volume. Pour plus d'informations, consultez Que sont les volumes et Privilèges et objets sécurisables du catalogue Unity.Pour accéder aux données à l'aide d'un emplacement externe Unity Catalog, le privilège
READ FILES
sur l'emplacement externe. Pour plus d’informations, consultez Créer un emplacement externe pour connecter le stockage cloud à Azure Databricks.Pour accéder aux données à l’aide d’une ressource de calcul avec un principal de service, autorisations d’administrateur de l’espace de travail Azure Databricks.
Pour accéder aux données à l'aide d'informations d'identification temporaires :
- Autorisations d’administrateur de l’espace de travail Azure Databricks.
- Autorisations dans votre compte Azure pour créer des jetons Blob SAS. Cela vous permet de générer des informations d'identification temporaires.
Un entrepôt Databricks SQL. Pour créer un entrepôt SQL, consultez Créer un entrepôt SQL.
Bonne connaissance de l’interface utilisateur de Databricks SQL.
Configurer l’accès au stockage cloud
Utilisez l’une des méthodes suivantes pour configurer l’accès à ADLS Gen2 :
(Recommandé) Créez un volume Unity Catalog. Pour plus d’informations, consultez la présentation des volumes Unity Catalog.
Configurez un emplacement externe Unity Catalog avec des informations d'identification de stockage. Pour plus d’informations sur les emplacements externes, consultez Créer un emplacement externe pour connecter le stockage cloud à Azure Databricks.
Configurez une ressource de calcul pour utiliser un principal de service. Pour plus d’informations, consultez Configurer un principal de service.
Générez des informations d’identification temporaires (un jeton SAS Blob) à partager avec d’autres utilisateurs Azure Databricks. Pour plus d’informations, consultez Générer des informations d’identification temporaires pour l’ingestion.
Nettoyage
Vous pouvez nettoyer les ressources associées dans votre compte cloud et Azure Databricks si vous ne souhaitez plus les conserver.
Supprimer le compte de stockage ADLS Gen2
- Ouvrez le portail Azure pour votre compte Azure, généralement à l’adresse https://portal.azure.com.
- Recherchez et ouvrez votre compte de stockage.
- Cliquez sur Supprimer.
- Entrez le nom du compte de stockage, puis cliquez sur Supprimer.
Arrêtez l'entrepôt SQL
Si vous n’utilisez pas l’entrepôt SQL pour d’autres tâches, vous devez l’arrêter afin d’éviter d’encourir des coûts supplémentaires.
- Dans le personnage SQL, dans la barre latérale, cliquez sur Entrepôts SQL.
- En regard du nom de l’entrepôt SQL, cliquez sur Arrêter.
- Lorsque vous y êtes invité, cliquez à nouveau sur Arrêter.
Étapes suivantes
Une fois les étapes décrites dans cet article terminées, les utilisateurs peuvent exécuter la commande COPY INTO
pour charger les données du conteneur ADLS Gen2 dans votre espace de travail Azure Databricks.
Pour charger des données à l'aide d'un emplacement externe ou d’un volume Unity Catalog, consultez Charger des données à l'aide de COPY INTO avec des volumes ou emplacements externes Unity Catalog.
Pour charger des données à l'aide d'un entrepôt SQL avec un principal de service, consultez Charger des données à l'aide de COPY INTO avec un principal de service.
Pour charger des données à l'aide d'informations d'identification temporaires (un jeton SAS Blob), consultez Charger des données à l'aide de COPY INTO avec des informations d'identification temporaires.