HDInsight sur AKS - Foire aux questions

Article
09/20/2024

Cet article répond à certaines questions courantes sur Azure HDInsight sur AKS.

Important

Azure HDInsight sur AKS a été mis hors service le 31 janvier 2025. En savoir plus grâce à cette annonce.

Vous devez migrer vos charges de travail vers Microsoft Fabric ou un produit Azure équivalent pour éviter l’arrêt brusque de vos charges de travail.

Important

Cette fonctionnalité est actuellement en préversion. Les Conditions d’utilisation supplémentaires pour les préversions Microsoft Azure incluent des termes juridiques supplémentaires qui s’appliquent aux fonctionnalités Azure en version bêta, en préversion ou qui ne sont pas encore publiées en disponibilité générale. Pour plus d'informations sur cette préversion spécifique, consultez les informations sur Azure HDInsight sur AKS en préversion sous . Pour des questions ou des suggestions de fonctionnalités, envoyez une demande sur AskHDInsight avec les détails et suivez-nous pour plus de mises à jour sur Communauté Azure HDInsight.

Généralités

Qu’est-ce que HDInsight sur AKS ?

HDInsight sur AKS est une nouvelle version de HDInsight, qui fournit un service de cluster géré prêt pour l’entreprise avec des projets d’analytique open source émergents tels qu’Apache Flink (pour la diffusion en continu), Trino (pour l’analytique adhoc et BI) et Apache Spark. Pour plus d’informations, consultez Vue d’ensemble.
Quelles formes de cluster sont prises en charge par HDInsight sur AKS ?

HDInsight sur AKS prend en charge Trino, Apache Flink et Apache Spark pour commencer. Toutefois, d’autres formes de cluster telles que Kafka, Hive, etc., sont sur la feuille de route.
Comment prendre en main HDInsight sur AKS ?

Pour commencer, visitez la Place de marché Azure et recherchez Azure HDInsight sur le service AKS et reportez-vous à prise en main.
Que se passe-t-il pour HDInsight existant sur la machine virtuelle et les clusters que j’exécute aujourd’hui ?

Aucune modification n’est apportée à HDInsight (HDInsight sur la machine virtuelle). Tous vos clusters existants continuent à s’exécuter, et vous pouvez continuer à créer et redimensionner de nouveaux clusters HDInsight.
Quel système d’exploitation est pris en charge avec HDInsight sur AKS ?

HDInsight sur AKS est basé sur le système d’exploitation Mariner. Pour plus d’informations, consultez la version du système d’exploitation .
Dans quelles régions HDInsight est-il disponible sur AKS ?

Pour obtenir la liste des régions prises en charge, reportez-vous à Disponibilité des régions.
Quel est le coût de déploiement d’un cluster HDInsight sur AKS ?

Pour plus d’informations sur la tarification, consultez HDInsight sur la tarification AKS.

Gestion des clusters

Puis-je exécuter plusieurs clusters simultanément ?

Oui, vous pouvez exécuter autant de clusters que vous le souhaitez par pool de clusters simultanément. Toutefois, assurez-vous que vous n’êtes pas contraint par quota pour votre abonnement. Le nombre maximal de nœuds autorisés dans un pool de clusters est de 250 (en préversion publique).
Puis-je installer ou ajouter d’autres plug-ins/bibliothèques sur mon cluster ?

Oui, vous pouvez installer des plug-ins et des bibliothèques personnalisés en fonction des formes de cluster.
- Pour Trino, reportez-vous à Installer des plug-ins personnalisés.
- Pour Spark, reportez-vous à la gestion de la bibliothèque dans Spark.
Puis-je connecter SSH à mon cluster ?

Oui, vous pouvez ssh sur votre cluster via webssh et exécuter des requêtes et envoyer des travaux directement à partir de là.

Metastore

Puis-je utiliser un metastore externe pour me connecter à mon cluster ?

Oui, vous pouvez utiliser un metastore externe. Toutefois, nous prenons uniquement en charge Azure SQL Database en tant que metastore personnalisé externe.
Puis-je partager un metastore sur plusieurs clusters ?

Oui, vous pouvez partager un metastore entre plusieurs instances de HDInsight déployées dans AKS.
Quelle est la version du metastore Hive prise en charge ?

Version 3.1.2 du Metastore Hive

Charges de travail

Trino

Qu’est-ce que Trino ?

Trino est un moteur de requête SQL fédéré et distribué open source, qui vous permet d’interroger des données résidant sur différentes sources de données sans passer à un entrepôt de données central. Vous pouvez interroger les données à l’aide d’ANSI SQL, sans avoir besoin d’apprendre un nouveau langage. Pour plus d’informations, consultez vue d’ensemble de Trino.
Quels sont tous les connecteurs que vous prenez en charge ?

HDInsight sur AKS Trino prend en charge plusieurs connecteurs. Pour plus d’informations, consultez cette liste de connecteurs trino . Nous continuons à ajouter de nouveaux connecteurs en tant que et quand de nouveaux connecteurs sont disponibles dans la version open source.
Puis-je ajouter des catalogues à un cluster existant ?

Oui, vous pouvez ajouter des catalogues pris en charge au cluster existant. Pour plus d’informations, consultez Ajouter des catalogues à un cluster existant.

Apache Flink

Qu’est-ce qu’Apache Flink ?

Apache Flink est un moteur analytique open source de classe pour le traitement de flux et l’exécution d’un calcul avec état sur des flux de données illimités et délimités. Il peut effectuer des calculs à la vitesse de la mémoire et à n’importe quelle échelle. Flink sur HDInsight sur AKS offre Apache Flink open source géré. Pour plus d’informations, consultez vue d’ensemble de Flink.
Prenez-vous en charge le mode session et l’application dans Apache Flink ?

Dans HDInsight sur AKS, Flink prend actuellement en charge les clusters en mode session.
Qu’est-ce que la gestion du back-end d’état et comment elle est effectuée dans HDInsight sur AKS ?

Les back-ends déterminent où l’état est stocké. Lorsque le point de contrôle est activé, l’état est conservé sur les points de contrôle afin de protéger contre la perte de données et d’assurer une récupération cohérente. La façon dont l’état est représenté en interne et comment et où il est conservé sur les points de contrôle dépend du back-end d’état choisi. Pour plus d’informations, consultez la vue d’ensemble de Flink

Apache Spark

Qu’est-ce qu’Apache Spark ?

Apache Spark est une infrastructure de traitement des données qui peut rapidement effectuer des tâches de traitement sur des jeux de données volumineux et peut également distribuer des tâches de traitement des données sur plusieurs ordinateurs, soit en même temps que d’autres outils informatiques distribués.
Quelles API de langage sont prises en charge dans Spark ?

Azure HDInsight sur AKS prend en charge Python et Scala.
Les metastores externes sont-ils pris en charge dans HDInsight sur AKS Spark ?

HDInsight sur AKS prend en charge la connectivité de Metastore externe. Actuellement, seule Azure SQL DB est prise en charge en tant que metastore externe.
Quelles sont les différentes façons d’envoyer des travaux dans HDInsight sur AKS Spark ?

Vous pouvez envoyer des travaux sur HDInsight sur AKS Spark à l’aide de Jupyter Notebook, Zeppelin Notebook, SDK et terminal de cluster. Pour plus d’informations, consultez Envoyer et gérer des travaux sur un cluster Spark dans HDInsight sur AKS

Partage via