Nouveautés de HDInsight sur AKS (Aperçu)

Article
09/20/2024

Important

Azure HDInsight sur AKS a été mis hors service le 31 janvier 2025. En savoir plus avec cette annonce.

Vous devez migrer vos charges de travail vers Microsoft Fabric ou un produit Azure équivalent pour éviter l’arrêt brusque de vos charges de travail.

Important

Cette fonctionnalité est actuellement en préversion. Les Conditions d’utilisation supplémentaires pour les préversions Microsoft Azure incluent des termes juridiques supplémentaires qui s’appliquent aux fonctionnalités Azure en version bêta, en préversion ou qui ne sont pas encore publiées en disponibilité générale. Pour plus d'informations sur cette préversion spécifique, consultez les informations sur Azure HDInsight sur AKS en préversion . Pour des questions ou des suggestions de fonctionnalités, envoyez une demande sur AskHDInsight avec les détails et suivez-nous pour plus de mises à jour sur Communauté Azure HDInsight.

Dans HDInsight sur AKS, toutes les opérations et la gestion des clusters ont une prise en charge native de gestion des services sur le portail Azure pour des clusters individuels.

Dans HDInsight sur AKS, deux nouveaux concepts sont introduits :

Pools de clusters sont utilisés pour regrouper et gérer des clusters.
clusters sont utilisés pour les calculs open source, ils sont hébergés dans un pool de clusters.

Pools de clusters

HDInsight fonctionne avec Azure Kubernetes Service (AKS). La ressource de niveau supérieur est le pool de clusters et gère tous les clusters s’exécutant sur le même cluster AKS. Lorsque vous créez un pool de clusters, un cluster AKS sous-jacent est créé en même temps pour héberger tous les clusters du pool. Les pools de clusters sont un regroupement logique de clusters, ce qui permet de créer une interopérabilité robuste entre plusieurs types de cluster et de permettre aux entreprises d’avoir les clusters dans le même réseau virtuel. Les pools de clusters fournissent un accès rapide et économique à tous les types de cluster créés à la demande et à grande échelle. Un pool de clusters correspond à un cluster dans l’infrastructure AKS.

Groupements

Les clusters sont des charges de travail de calcul open source individuelles, telles qu’Apache Spark, Apache Flink et Trino, qui peuvent être créées rapidement en quelques minutes avec des configurations prédéfinies et quelques clics. Bien que s’exécutant sur le même pool de clusters, chaque cluster peut avoir ses propres configurations, telles que le type de cluster, la version, la taille de machine virtuelle du nœud, le nombre de nœuds. Les clusters s’exécutent sur des ressources de calcul séparées avec ses propres dns et points de terminaison.

Fonctionnalités actuellement en préversion

La liste des tableaux suivants présente les fonctionnalités de HDInsight sur AKS actuellement en préversion. Les fonctionnalités en préversion sont triées par ordre alphabétique.

Aire	Fonctionnalités
Fondamentaux	Créer un Pool et des Clusters à l’aide du Portail, prise en charge du Web Shell sécurisé (SSH), possibilité de choisir le nombre de nœuds Worker lors de la création du Cluster
Stockage	Stockage ADLS Gen2 Prise en charge
Metastore	Prise en charge des metastores externes pour Trino, Spark et Flink, intégration avec HDInsight
Sécurité	Prise en charge du RBAC ARM, prise en charge de l'authentification basée sur le MSI, option de fournir l'accès au cluster à d'autres utilisateurs.
Journalisation et surveillance	Agrégation des journaux dans Azure Log Analytics, pour les journaux de serveur, les métriques des clusters et des services via Prometheus managé et Grafana, prend en charge les métriques des serveurs dans Azure Monitor, page de statut du service pour la surveillance de la santé du service
Mise à l’échelle automatique	Mise à l'échelle automatique basée sur la charge et basée sur la planification
Personnaliser et configurer des clusters	Prise en charge des actions de script lors de la création du cluster, prise en charge de la gestion des bibliothèques , prise en charge des paramètres de configuration du service après la création du cluster.
Trino	Prise en charge de catalogues Trino, prise en charge de Trino CLI, prise en charge des DBeaver pour la soumission de requêtes, Ajouter ou supprimer plug-ins et connecteurs, prise en charge des événements de journalisation des, prise en charge des analyser les statistiques de requête pour n’importe quel connecteur dans le tableau de bord Trino, prise en charge des de tableau de bord Trino pour surveiller les requêtes, mise en cache des requêtes, Intégration à Power BI, Intégration avec Apache Superset, Redash, Prise en charge de plusieurs connecteurs
Flink	Prise en charge de l'interface utilisateur web native Flink, prise en charge de Flink avec HMS pour DStream, envoi de travaux au cluster à l’aide de API REST et du portail Azure, exécution de programmes empaquetés sous forme de fichiers JAR via CLI Flink , prise en charge des Savepoints persistants, prise en charge de la mise à jour des options de configuration lors de l’exécution du travail, connexion à plusieurs services Azure : Azure Cosmos DB , Azure Databricks , Azure Data Explorer , Azure Event Hubs , Azure IoT Hub , Azure Pipelines , Azure Data Factory Workflow Orchestration Manager , HDInsight Kafka , envoyer des travaux au cluster à l’aide de CLI Flink et de CDC avec Flink .
Étincelle	Jupyter Notebook, prise en charge de Delta lake 2.0, prise en charge de Zeppelin, prise en charge ATS, prise en charge de l'interface du serveur d’historique Yarn, soumission de travaux à l'aide de SSH, soumission de travaux à l'aide du kit de développement logiciel (SDK) et Notebook d'apprentissage automatique

Feuille de route des fonctionnalités

Caractéristique	Chronologie estimée des mises en production	Statut
Mise à l’échelle automatique - Basé sur la charge - Trino	1er trimestre 2024	Terminé
Mise à l’échelle automatique basée sur la charge aléatoire pour Spark	Q2 2024	En cours
mise à niveau sur place	2e trimestre 2024	Terminé
Prise en charge des instances réservées	Q2 2024	En cours
Authentification basée sur MSI pour metastore (SQL)	1er trimestre 2024	En cours
Spark 3.4	Q2 2024	En cours
Trino 426	1er trimestre 2024	Terminé
Ranger pour RBAC	2e trimestre 2024	En cours
prise en charge du mode application pour Flink	Q1 2024	Terminé
Flink 1.17	1er trimestre 2024	Terminé
Prise en charge d’SPARK ACID	Q1 2024	En cours
Références de SKU configurables pour le nœud de tête, SSH	2e trimestre 2024	En cours
Support de la passerelle SQL Flink	Q1 2024	Terminé
Clusters privés pour HDInsight sur AKS	1er trimestre 2024	Terminé
Prise en charge de Ranger pour Spark SQL	Q4 2024	En cours
Listes de contrôle d’accès Ranger sur la couche de stockage	Q4 2024	En cours
Prise en charge de One Lake en tant que conteneur principal	Q2 2024	En cours

Partager via

Nouveautés de HDInsight sur AKS (Aperçu)

Pools de clusters

Groupements

Fonctionnalités actuellement en préversion

Feuille de route des fonctionnalités

Ressources supplémentaires