Utilisation du metastore Hive avec un cluster Apache Spark™
Important
Azure HDInsight sur AKS a été mis hors service le 31 janvier 2025. En savoir plus avec cette annonce.
Vous devez migrer vos charges de travail vers Microsoft Fabric ou un produit Azure équivalent pour éviter l’arrêt brusque de vos charges de travail.
Important
Cette fonctionnalité est actuellement en préversion. Les Conditions d’utilisation supplémentaires pour les préversions Microsoft Azure incluent des termes juridiques supplémentaires qui s’appliquent aux fonctionnalités Azure en version bêta, en préversion ou qui ne sont pas encore publiées en disponibilité générale. Pour plus d’informations sur cette préversion spécifique, consultez informations sur Azure HDInsight sur AKS en préversion. Pour des questions ou des suggestions de fonctionnalités, envoyez une demande sur AskHDInsight avec les détails et suivez-nous pour plus de mises à jour sur Communauté Azure HDInsight.
Il est essentiel de partager les données et le metastore entre plusieurs services. Un des métastores couramment utilisés dans le metastore HIVE. HDInsight sur AKS permet aux utilisateurs de se connecter à un metastore externe. Cette étape permet aux utilisateurs HDInsight de se connecter en toute transparence à d’autres services de l’écosystème.
Azure HDInsight sur AKS prend en charge les metastores personnalisés, qui sont recommandés pour les clusters de production. Les étapes clés impliquées sont les suivantes :
- Créer une base de données Azure SQL
- Créer un coffre de clés pour stocker les informations d’identification
- Configurer metastore lors de la création d’un cluster HDInsight sur AKS avec Apache Spark™
- Utilisez le metastore externe (affiche les bases de données et effectuez une limite de sélection 1).
Pendant que vous créez le cluster, le service HDInsight doit se connecter au metastore externe et vérifier vos informations d’identification.
Créer une base de données Azure SQL
Créez ou disposez d’une base de données Azure SQL Existante avant de configurer un metastore Hive personnalisé pour un cluster HDInsight.
Note
Actuellement, nous prenons uniquement en charge le metastore Azure SQL Database pour HIVE. En raison de la limitation Hive, le caractère « - » (trait d’union) dans le nom de la base de données du metastore n’est pas pris en charge.
Créer un coffre de clés pour stocker les informations d’identification
Créez un coffre de clés Azure.
L’objectif du coffre de clés est de vous permettre de stocker le mot de passe d’administrateur SQL Server défini lors de la création de la base de données SQL. HDInsight sur la plateforme AKS ne traite pas directement les informations d’identification. Par conséquent, il est nécessaire de stocker vos informations d’identification importantes dans Azure Key Vault. Découvrez les étapes de création d’un azure Key Vault.
Après la création d’Azure Key Vault, attribuez les rôles suivants
Objet Rôle Remarques Identité managée affectée par l’utilisateur (le même UAMI que celui utilisé par le cluster HDInsight) Utilisateur des "secrets" de Key Vault Découvrez comment attribuer un rôle à UAMI Utilisateur(qui crée un secret dans Azure Key Vault) Administrateur de Key Vault Découvrez comment attribuer un rôle à l'utilisateur. Note
Sans ce rôle, l’utilisateur ne peut pas créer de secret.
-
Cette étape vous permet de conserver votre mot de passe d’administrateur SQL Server en tant que secret dans Azure Key Vault. Ajoutez votre mot de passe (le même mot de passe que celui fourni dans la base de données SQL pour l’administrateur) dans le champ « Valeur » lors de l’ajout d’un secret.
Note
Veillez à noter le nom du secret, car vous en aurez besoin lors de la création du cluster.
Configurer le metastore lors de la création d’un cluster HDInsight Spark
Accédez à HDInsight sur le pool de clusters AKS pour créer des clusters.
Activez le bouton bascule pour ajouter un métastore Hive externe et remplissez les informations suivantes.
Le reste des détails doit être renseigné conformément aux règles de création de cluster pour cluster Apache Spark dans HDInsight sur AKS.
Cliquez sur Vérifier et Créer.
Note
- Le cycle de vie du metastore n’est pas lié à un cycle de vie de clusters. Vous pouvez donc créer et supprimer des clusters sans perdre les métadonnées. Les métadonnées telles que vos schémas Hive persistent même après avoir supprimé et recréé le cluster HDInsight.
- Un metastore personnalisé vous permet d’attacher plusieurs clusters et types de cluster à ce metastore.
Utiliser le metastore externe
Créer une table
>> spark.sql("CREATE TABLE sampleTable (number Int, word String)")
Ajouter des données sur la table
>> spark.sql("INSERT INTO sampleTable VALUES (123, \"HDIonAKS\")");\
Lire le tableau
>> spark.sql("select * from sampleTable").show()
Référence
- Apache, Apache Spark, Spark et les noms de projets open source associés sont marques de commerce du Apache Software Foundation (ASF).