Partager via


Utiliser un metastore Hive externe pour le pool Synapse Spark

Remarque

Les metastores Hive externes ne seront plus pris en charge dans les versions postérieures à Azure Synapse Runtime pour Apache Spark 3.4 dans Synapse.

Azure Synapse Analytics permet aux pools Apache Spark du même espace de travail de partager un metastore HMS (metastore Hive) managé comme catalogue. Quand les clients veulent persister les métadonnées du catalogue Hive en dehors de l’espace de travail et partager des objets de catalogue avec d’autres moteurs de calcul en dehors de l’espace de travail, comme HDInsight et Azure Databricks, ils peuvent se connecter à un metastore Hive externe. Dans cet article, vous découvrez comment connecter Synapse Spark à un metastore Apache Hive externe.

Versions de metastore Hive prises en charge

La fonctionnalité fonctionne avec Spark 3.3. Le tableau suivant indique les versions de metastore Hive prises en charge pour chaque version de Spark.

Version de Spark HMS 2.3.x HMS 3.1.X
3.3 Oui Oui
3.4 Oui Oui

Configurer un service lié sur le metastore Hive

Notes

Seules Azure SQL Database et Azure Database pour MySQL sont prises en charge comme metastore Hive externe. L’authentification SQL (nom d’utilisateur-mot de passe) est prise en charge pour les deux types de base de données. En outre, l’authentification par identité managée (notamment celle affectée par le système et celle affectée par l’utilisateur) est uniquement prise en charge pour Azure SQL Database et Spark 3.4. Si la base de données fournie est vide, provisionnez-la avec l’outil de schéma Hive pour créer un schéma de base de données.

Suivez les étapes ci-dessous pour configurer un service lié sur le metastore Hive externe dans l’espace de travail Synapse.

  1. Ouvrez Synapse Studio, accédez à Gérer > Services liés à gauche, puis cliquez sur Nouveau pour créer un service lié.

    Capture d’écran de la configuration d’un service lié du metastore Hive.

  2. Choisissez Azure SQL Database, puis cliquez sur Continuer.

  3. Entrez le nom du service lié. Enregistrez le nom du service lié. Ces informations seront utilisées pour configurer Spark dans un instant.

  4. Choisissez une version Héritée, puis sélectionnez Chaîne de connexion.

  5. Sélectionnez Azure SQL Database pour le metastore Hive externe à partir de la liste d’abonnements Azure ou entrez les informations manuellement.

  6. Définissez Type d’authentification comme étant SQL Authentication, System-assigned managed identity ou User-assigned managed identity. Pour SQL Authentication, fournissez un Nom d’utilisateur et un Mot de passe pour configurer la connexion. Pour System-assigned managed identity, la page remplit automatiquement l’identité de gestion associée à l’espace de travail actuel. Pour User-assigned managed identity, choisissez ou créez une limite d’informations d’identification avec une identité managée affectée par l’utilisateur.

  7. Test la connexion pour vérifier l’authentification.

  8. Cliquez sur Créer pour créer le service lié.