Quelles sont les nouveautés de HDInsight sur AKS ? (Préversion)
Remarque
Nous allons mettre hors service Azure HDInsight sur AKS le 31 janvier 2025. Avant le 31 janvier 2025, vous devrez migrer vos charges de travail vers Microsoft Fabric ou un produit Azure équivalent afin d’éviter leur arrêt brutal. Les clusters restants de votre abonnement seront arrêtés et supprimés de l’hôte.
Seul le support de base est disponible jusqu’à la date de mise hors service.
Important
Cette fonctionnalité est disponible actuellement en mode Aperçu. Les Conditions d’utilisation supplémentaires pour les préversions de Microsoft Azure contiennent davantage de conditions légales qui s’appliquent aux fonctionnalités Azure en version bêta, en préversion ou ne se trouvant pas encore en disponibilité générale. Pour plus d’informations sur cette préversion spécifique, consultez les Informations sur la préversion d’Azure HDInsight sur AKS. Pour toute question ou pour des suggestions à propos des fonctionnalités, veuillez envoyer vos requêtes et leurs détails sur AskHDInsight, et suivez-nous sur la Communauté Azure HDInsight pour plus de mises à jour.
Dans HDInsight sur AKS, toutes les opérations et la gestion des clusters prennent en charge nativement le management des services sur le portail Azure pour des clusters individuels.
Dans HDInsight sur AKS, deux nouveaux concepts sont introduits :
- Les pools de clusters sont utilisés pour regrouper et gérer des clusters.
- Les clusters sont utilisés pour les calculs open source. Ils sont hébergés dans un pool de clusters.
Pools de clusters
HDInsight sur AKS s’exécute sur Azure Kubernetes Service (AKS). La ressource de niveau supérieur est le pool de clusters et gère tous les clusters s’exécutant sur le même cluster AKS. Lorsque vous créez un pool de clusters, un cluster AKS sous-jacent est créé en même temps pour héberger tous les clusters du pool. Les pools de clusters sont un regroupement logique de clusters, ce qui permet de créer une interopérabilité robuste entre plusieurs types de cluster et permet aux entreprises d’avoir les clusters dans le même réseau virtuel. Les pools de clusters fournissent un accès rapide et économique à tous les types de cluster créés à la demande et à grande échelle. Un pool de clusters correspond à un cluster dans l’infrastructure AKS.
Clusters
Les clusters sont des charges de travail de calcul open source individuelles, telles qu’Apache Spark, Apache Flink et Trino, qui peuvent être créées rapidement en quelques minutes avec des configurations prédéfinies et quelques clics. Bien que s’exécutant sur le même pool de clusters, chaque cluster peut avoir ses propres configurations, telles que le type de cluster, la version, la taille de machine virtuelle du nœud et le nombre de nœuds. Les clusters s’exécutent sur des ressources de calcul séparées avec leurs propres DNS et points de terminaison.
Fonctionnalités actuellement en préversion
La liste des tableaux suivants présente les fonctionnalités de HDInsight sur AKS qui sont actuellement en préversion. Les fonctionnalités en préversion sont classées par ordre alphabétique.
Zone | Fonctionnalités |
---|---|
Notions de base | Créer un pool et des clusters depuis le portail, prise en charge de l’interpréteur de commandes web sécurisé (ssh), possibilité de choisir le nombre de nœuds Worker lors de la création du cluster |
Stockage | Prise en charge du stockage ADLS Gen2 |
Metastore | Prise en charge du metastore externe pour Trino, Spark et Flink, intégration à HDInsight |
Sécurité | Prise en charge du RBAC ARM, prise en charge de l’authentification basée sur MSI, option permettant de fournir l’accès au cluster à d’autres utilisateurs |
Journalisation et supervision | Agrégation de journaux dans Azure Log Analytics, pour les journaux de serveur, les métriques de cluster et de service via Managed Prometheus et Grafana, les métriques du serveur de support dans Azure Monitor, page État du service pour la surveillance de l’intégrité du service |
Échelle automatique | Mise à l’échelle automatique basée sur la charge et mise à l'échelle automatique basée sur la planification |
Personnaliser et configurer des clusters | Prise en charge des actions de script lors de la création du cluster, prise en charge de la gestion des bibliothèques, paramètres de configuration du service après la création du cluster |
Trino | Prise en charge des catalogues Trino, prise en charge de Trino CLI, prise en charge de DBeaver pour la soumission de requêtes, ajout ou suppression de plug-ins et de connecteurs, prise en charge des événements de journalisation de requête, prise en charge de l’analyse des statistiques de requête pour n’importe quel connecteur dans le tableau de bord Trino, prise en charge du tableau de bord Trino pour la surveillance des requêtes, mise en cache des requêtes, intégration à Power BI, intégration à Apache Superset, Redash, prise en charge de plusieurs connecteurs |
Flink | Prise en charge de l’interface utilisateur web native Flink, prise en charge par Flink de HMS pour DStream, envoi de travaux au cluster à l’aide de l’API REST et du portail Azure, exécution des programmes empaquetés en tant que fichiers JAR au moyen de l’interfaceCLI Flink, prise en charge des points d’enregistrement persistants, prise en charge de la mise à jour des options de configuration lorsque le travail est en cours d’exécution, connexion à plusieurs services Azure : Azure Cosmos DB, Azure Databricks, Azure Data Explorer, Azure Event Hubs, Azure IoT Hub, Azure Pipelines, Gestionnaire du flux de travail Azure Data Factory, HDInsight Kafka, envoi de travaux au cluster à l’aide de l’interface CLI Flink et de CDC avec Flink |
Spark | Jupyter Notebook, Prise en charge de Delta lake 2.0, Support Zeppelin, Support ATS, Prise en charge de l’interface serveur de l’historique Yarn, Soumission de travaux à l’aide de SSH, soumission de travaux à l’aide du Kit de développement logiciel (SDK) et notebook Machine Learning |
Feuille de route des fonctionnalités
Fonctionnalité | Chronologie estimée des mises en production | État |
---|---|---|
Mise à l'échelle automatique - Basé sur le chargement - Trino | Q1 2024 | Terminée |
Mise à l’échelle automatique basée sur la charge aléatoire pour Spark | T2 2024 | En cours |
Mise à niveau sur place | T2 2024 | Terminée |
Prise en charge de l’instance réservée | T2 2024 | En cours |
Authentification basée sur MSI pour metastore (SQL) | Q1 2024 | En cours |
Spark 3.4 | T2 2024 | En cours |
Trino 426 | Q1 2024 | Terminée |
Ranger pour RBAC | T2 2024 | En cours |
Prise en charge du mode application pour Flink | Q1 2024 | Terminée |
Flink 1.17 | Q1 2024 | Terminée |
Prise en charge d’SPARK ACID | Q1 2024 | En cours |
Références SKU configurables pour le nœud principal, SSH | T2 2024 | En cours |
Prise en charge de Flink SQL Gateway | Q1 2024 | Terminée |
Clusters privés pour HDInsight sur AKS | Q1 2024 | Terminée |
Prise en charge de Ranger pour Spark SQL | T4 2024 | En cours |
Listes de contrôle d’accès Ranger sur la couche de stockage | T4 2024 | En cours |
Prise en charge de One Lake en tant que conteneur principal | T2 2024 | En cours |