Partage via


Utilisation du metastore Hive avec un cluster Apache Spark™

Important

Azure HDInsight sur AKS a été mis hors service le 31 janvier 2025. En savoir plus avec cette annonce.

Vous devez migrer vos charges de travail vers Microsoft Fabric ou un produit Azure équivalent pour éviter l’arrêt brusque de vos charges de travail.

Important

Cette fonctionnalité est actuellement en préversion. Les Conditions d’utilisation supplémentaires pour les préversions Microsoft Azure incluent des termes juridiques supplémentaires qui s’appliquent aux fonctionnalités Azure en version bêta, en préversion ou qui ne sont pas encore publiées en disponibilité générale. Pour plus d’informations sur cette préversion spécifique, consultez informations sur Azure HDInsight sur AKS en préversion. Pour des questions ou des suggestions de fonctionnalités, envoyez une demande sur AskHDInsight avec les détails et suivez-nous pour plus de mises à jour sur Communauté Azure HDInsight.

Il est essentiel de partager les données et le metastore entre plusieurs services. Un des métastores couramment utilisés dans le metastore HIVE. HDInsight sur AKS permet aux utilisateurs de se connecter à un metastore externe. Cette étape permet aux utilisateurs HDInsight de se connecter en toute transparence à d’autres services de l’écosystème.

Azure HDInsight sur AKS prend en charge les metastores personnalisés, qui sont recommandés pour les clusters de production. Les étapes clés impliquées sont les suivantes :

  1. Créer une base de données Azure SQL
  2. Créer un coffre de clés pour stocker les informations d’identification
  3. Configurer metastore lors de la création d’un cluster HDInsight sur AKS avec Apache Spark™
  4. Utilisez le metastore externe (affiche les bases de données et effectuez une limite de sélection 1).

Pendant que vous créez le cluster, le service HDInsight doit se connecter au metastore externe et vérifier vos informations d’identification.

Créer une base de données Azure SQL

  1. Créez ou disposez d’une base de données Azure SQL Existante avant de configurer un metastore Hive personnalisé pour un cluster HDInsight.

    Note

    Actuellement, nous prenons uniquement en charge le metastore Azure SQL Database pour HIVE. En raison de la limitation Hive, le caractère « - » (trait d’union) dans le nom de la base de données du metastore n’est pas pris en charge.

Créer un coffre de clés pour stocker les informations d’identification

  1. Créez un coffre de clés Azure.

    L’objectif du coffre de clés est de vous permettre de stocker le mot de passe d’administrateur SQL Server défini lors de la création de la base de données SQL. HDInsight sur la plateforme AKS ne traite pas directement les informations d’identification. Par conséquent, il est nécessaire de stocker vos informations d’identification importantes dans Azure Key Vault. Découvrez les étapes de création d’un azure Key Vault.

  2. Après la création d’Azure Key Vault, attribuez les rôles suivants

    Objet Rôle Remarques
    Identité managée affectée par l’utilisateur (le même UAMI que celui utilisé par le cluster HDInsight) Utilisateur des "secrets" de Key Vault Découvrez comment attribuer un rôle à UAMI
    Utilisateur(qui crée un secret dans Azure Key Vault) Administrateur de Key Vault Découvrez comment attribuer un rôle à l'utilisateur.

    Note

    Sans ce rôle, l’utilisateur ne peut pas créer de secret.

  3. Créer un secret

    Cette étape vous permet de conserver votre mot de passe d’administrateur SQL Server en tant que secret dans Azure Key Vault. Ajoutez votre mot de passe (le même mot de passe que celui fourni dans la base de données SQL pour l’administrateur) dans le champ « Valeur » lors de l’ajout d’un secret.

    Capture d’écran montrant comment créer un coffre de clés.

    Capture d’écran montrant comment créer un secret.

    Note

    Veillez à noter le nom du secret, car vous en aurez besoin lors de la création du cluster.

Configurer le metastore lors de la création d’un cluster HDInsight Spark

  1. Accédez à HDInsight sur le pool de clusters AKS pour créer des clusters.

    Capture d’écran montrant comment créer un cluster.

  2. Activez le bouton bascule pour ajouter un métastore Hive externe et remplissez les informations suivantes.

    Une capture d’écran qui montre l’onglet de base.

  3. Le reste des détails doit être renseigné conformément aux règles de création de cluster pour cluster Apache Spark dans HDInsight sur AKS.

  4. Cliquez sur Vérifier et Créer.

    capture d’écran montrant l’onglet révision et création.

    Note

    • Le cycle de vie du metastore n’est pas lié à un cycle de vie de clusters. Vous pouvez donc créer et supprimer des clusters sans perdre les métadonnées. Les métadonnées telles que vos schémas Hive persistent même après avoir supprimé et recréé le cluster HDInsight.
    • Un metastore personnalisé vous permet d’attacher plusieurs clusters et types de cluster à ce metastore.

Utiliser le metastore externe

  1. Créer une table

    >> spark.sql("CREATE TABLE sampleTable (number Int, word String)")

    Capture d’écran montrant comment créer une table.

  2. Ajouter des données sur la table

    >> spark.sql("INSERT INTO sampleTable VALUES (123, \"HDIonAKS\")");\

    Capture d’écran montrant l’instruction Insert.

  3. Lire le tableau

    >> spark.sql("select * from sampleTable").show()

    Capture d’écran montrant comment lire la table.

Référence