Création d’un cluster HDInsight

10 minutes

Il existe plusieurs méthodes pour créer un cluster HDInsight : vous pouvez utiliser le Portail Azure pour bénéficier d’une interface utilisateur conviviale ou bien écrire des scripts pour faciliter les déploiements automatisés. Le tableau suivant présente les différentes méthodes que vous pouvez utiliser pour créer un cluster HDInsight.

Clusters créés avec	un navigateur Web	Ligne de commande	API REST	Kit SDK
Portail Azure	✔
Azure Data Factory	✔	✔	✔	✔
Azure CLI		✔
Azure PowerShell		✔
cURL		✔	✔
Kit de développement logiciel (SDK) .NET				✔
Modèle Azure Resource Manager		✔

Toutes les configurations HDInsight nécessitent les informations de base suivantes :

Onglet Informations de base

Détails du projet

Abonnement

Définit l’abonnement Azure sous lequel HDInsight est facturé et géré.

Nom du groupe de ressources

Un groupe de ressources est un regroupement logique de technologies et de services Azure qui sont généralement liés à la même application ou au même cycle de vie d’application. Le regroupement de services dans le même groupe de ressources facilite la maintenance administrative.

Capture d’écran de l’onglet De base de l’écran de création d’un cluster HDInsight dans le Portail Azure

Détails du cluster

Nom du cluster

Les noms des clusters HDInsight présentent les restrictions suivantes :

Caractères autorisés : a-z, 0-9, A-Z
Longueur maximale : 59
Noms réservés : apps
L’étendue de l’affectation de noms de cluster porte sur l’ensemble d’Azure et sur l’ensemble des abonnements. Le nom du cluster doit donc être globalement unique.
Les six premiers caractères doivent être uniques au sein d’un réseau virtuel

Lieu

Spécifie l’emplacement de stockage du type de cluster. Si aucun emplacement n’est défini, le cluster est colocalisé au même emplacement que le stockage par défaut. L’emplacement doit être le plus proche possible de vos utilisateurs pour réduire la latence.

Types de cluster

Définit la pile technologique approvisionnée sur votre cluster de ressources. Sélectionnez un type de cluster en fonction du type de données dont vous disposez et du type de traitement dont vous avez besoin pour votre scénario. Les types de cluster disponibles sont présentés dans le tableau suivant.  

Type de cluster	Description
Apache Hadoop	Framework qui utilise HDFS et un simple modèle de programmation MapReduce pour traiter et analyser les données par lots.
Apache Spark	infrastructure de traitement parallèle open source qui prend en charge le traitement en mémoire pour améliorer les performances des applications d’analyse du Big Data.
HBase	base de données NoSQL basée sur Hadoop qui fournit un accès aléatoire et une forte cohérence pour de vastes quantités de données non structurées et semi-structurées (potentiellement, des milliards de lignes multipliées par des millions de colonnes).
Interactive Query Apache	mise en cache pour des requêtes Hive interactives et plus rapides.
Apache Kafka	plateforme open source utilisée pour créer des applications et des pipelines de données de diffusion en continu. Kafka fournit également une fonctionnalité de file d’attente de messages qui vous permet de publier des flux de données et de vous abonner à ces derniers.

Version

Définit la version de HDInsight pour ce cluster. HDInsight 4.0 est la version la plus récente et contient les infrastructures les plus récentes approvisionnées sur les clusters.

Informations d’identification du cluster

Les clusters HDInsight vous permettent de configurer deux comptes d’utilisateur lors de la création.

Identifiant de connexion et mot de passe du cluster

Le nom d’utilisateur par défaut est admin. Il utilise la configuration de base sur le Portail Azure. Parfois, le nom par défaut est « Utilisateur du cluster ».

Nom d’utilisateur et mot de passe SSH

sert à se connecter au cluster à l’aide de SSH.

Notes

Le package de sécurité d’entreprise vous permet d’intégrer HDInsight à Active Directory et Apache Ranger. Plusieurs utilisateurs peuvent être créés à l’aide du package de sécurité d’entreprise.

Onglet Stockage

Les clusters HDInsight peuvent utiliser les options de stockage suivantes, comme indiqué dans l’écran de stockage :

Azure Data Lake Storage Gen2
Azure Data Lake Storage Gen1
Stockage Azure Usage général v2
Stockage Azure Usage général v1
Objet blob de blocs Stockage Azure (pris en charge uniquement comme stockage secondaire)

L’écran Stockage vous permet de définir le compte de stockage principal et le conteneur par défaut. Vous pouvez également lier un Stockage Azure supplémentaire au cluster. Les paramètres Metastore vous permettent de définir une base de données SQL externe pour stocker des tables Hive après la suppression d’un cluster et améliorer les performances de Oozie en stockant les métadonnées dans un magasin externe.

Capture d’écran de l’onglet Stockage de l’écran de création d’un cluster HDInsight dans le Portail Azure

Sécurité et mise en réseau

Pour les types de cluster Hadoop, Spark, HBase, Kafka et Interactive Query, vous pouvez choisir d’activer le Pack Sécurité Entreprise. Vous pouvez utiliser ce package pour renforcer la sécurité d’une configuration de cluster à l’aide d’Apache Ranger et d’une intégration à Microsoft Entra ID.

Capture d’écran de l’onglet Sécurité et mise en réseau de l’écran de création d’un cluster HDInsight dans le Portail Azure

En outre, il est toujours recommandé de déployer des clusters HDInsight dans un réseau virtuel (VNet). Vous pouvez définir et configurer le réseau virtuel sur cet écran. Si votre solution nécessite des technologies qui sont réparties sur plusieurs types de clusters HDInsight, un réseau virtuel Azure peut connecter les types de cluster requis. Cette configuration permet aux clusters, et au code déployé sur ces clusters, de communiquer directement entre eux.

Configuration et tarification

Cette page vous permet de configurer la taille et les performances de votre cluster, et de consulter les informations d'estimation de coût. Dans cet écran, vous pouvez également définir les machines virtuelles qui seront utilisées pour les nœuds principaux et pour les nœuds Worker.

Capture d’écran de l’onglet Configuration et Tarification de l’écran de création d’un cluster HDInsight dans le Portail Azure