Lab Azure Big Data (1): création d’un cluster HDInsight

Dans le cadre d’un programme de “readiness” interne, j’ai participé à la création de contenu autour du Big Data. Comme j’ai eu de nombreuses demandes pour récupérer le contenu que j’ai créé, je me suis dit que ça pourrait peut-être intéresser d’autres personnes. Donc je partage sur mon blog Smile!

Ce contenu est constitué d’une série d’articles qui va de la création d’un cluster HDInsight à l’exploitation des données.

Sommaire des articles

  1. Création d’un cluster HDInsight
  2. Utilisation de MapReduce
  3. Utilisation de Hive
  4. Utilisation de Pig
  5. Analyses des données avec Power BI

Dans ce premier article, nous allons créer un cluster HDInsight de type Spark, auquel nous rattacherons un stockage de type “Data Lake”

Création du « Data Lake Store »

Création du service

Depuis le portail Azure, cliquez sur « Intelligence + analytics » => « Data Lake Store »

image

Remplissez le formulaire de création. Pour cet exemple, nous allons créer le groupe de ressources “Hackit”.

Puis cliquez sur le bouton « Create ».

image

Création d’un dossier de stockage dans de Data Lake Store (optionel)

Une fois le Data lake Store créé, allez dans la vue générale du « Data Lake Store »

Cliquez sur « Overview »

Cliquez sur le bouton « Data Explorer »

clip_image004

Cliquez sur le bouton « New Folder »

clip_image006

Voici une vue après la création du dossier

clip_image007

Création d’un Blob Storage (si besoin)

Depuis le portail Azure, cliquez sur « Storage » => « Storage Account »

image

Un stockage « Standard » avec une réplication locale « LRS » sera suffisant pour le lab.

Sélectionnez un groupe de ressource. Ici, nous allons prendre celui qui héberge le Data Lake Store créé précédemment (Hackit).

Dans la champ « Location », sélectionnez la zone souhaitée.

Cliquez sur le bouton « Create »

clip_image010

Création du Cluster HDInsight (HDI)

« Intelligence + analytics » => « HDInsight »

image

Choix du type de cluster HDI

Cliquez sur “Quick create”. Puis dans la rubrique “Basics”, donnez un nom à votre cluster HDI.

Cliquez sur « Cluster configuration ».

image

Définissez la création de cluster de type Spark, en version 2.0.1.

Cliquez sur le bouton « Select ».

image

Terminez de renseigner les informations de connexion.

Création de la source de données

Selection de la source de données

Dans la rubrique “Storage”.

Sous « Primary storage type », sélectionnez « Data Lake Store ».

image

Sélectionnez le « Data lake Store » créé précédemment.

image

Définition des droits d’accès à la source de données

Création du service principal

Cliquez sur « Data Lake Store access »

Sous “Select Azure AD service principal” cliquez sur “Create new

Cliquez sur “Service principal

Dans le “blade” “Create service principal », définissez les propriétés de votre nouveau “service principal

Cliquez sur le bouton « Create »

clip_image019

Définition des accès du service principal

Sous le nom du « Service principal » crée, cliquez sur « Access »

Cliquez sur « Select file permissions »

clip_image020

Cochez la case à gauche du Data Lake Store avant d’avoir accès à la définition des droits. Vérifiez que toutes les cases soient bien cochées. Cliquez sur le bouton « Select »

image

Cliquez sur « Assign selected permissions ». Puis cliquez sur le bouton « Run »

image

Si tout va bien Smile

image

Cliquez sur le bouton « Done »

Dans le Balde « Data Lake Store access », cliquez sur « Select »

image

Dans le blade « Data Source », il devrait rester une erreur

image

Modifiez le champ « Root path ». Indiquez simplement la racine du stockage avec « / ». Cliquez sur le bouton « Select »

image

Taille du cluster

Cliquez sur « Cluster size »

Définissez le nombre de Woker nodes. Pour ce lab, nous pouvons conserver 4 Worker nodes.

Cliquez sur le bouton « Select »

clip_image033

Ajout d’un compte de stockage additionnel (optionnel)

Si besoin, il est possible de rajouter un compte de stockage au cluster

Dans « Optionnal Configuration », cliquez sur « Additional storage accounts ».

clip_image035

De l’information détaillée est disponible ici.

Création du cluster

Sélectionnez le groupe de ressource créé précédemment. Pour cet exemple, je sélectionne le groupe de ressource « Hackit ».

Cliquez sur le bouton « Create ». La création du cluster prend environ 20 minutes.

clip_image036

Après création du cluster, il est possible de vérifier la structure des données dans le Data Lake Store avec la fonction « Data Explorer ». Pour la seconde partie, nous allons utiliser des données qui se trouvent dans dossier « Example »

clip_image038

Connexion au cluster

Il est possible de se connecter au cluster. Ici, nous avons un cluster sous Linux, il est possible de s’y connecter, par exemple, via « Putty » ou directement depuis Windows 10 avec « Bash on Ubuntu on Windows ».

Pour cet exemple nous allons utiliser « Bash on Ubuntu on Windows ».

Récupérez la chaîne de connexion depuis le portail Azure. Cliquez sur « Secure Shell (SSH) »

image

Puis copiez la chaîne de connexion en fonction de l’outil utilisé :

image

Avec « Putty » utilisez :

image

Avec « Bash on Ubuntu on Windows » utilisez :

image

Ci-dessous un exemple avec « Bash on Ubuntu on Windows »

image

Voilà pour cette première partie. Dans le second article, nous allons commencer à utiliser notre cluster fraîchement configuré.

Franck Mercier