Lab Azure Big Data (3) : utilisation de Hive
Dans le cadre d’un programme de “readiness” interne, j’ai participé à la création de contenu autour du Big Data. Comme j’ai eu de nombreuses demandes pour récupérer le contenu que j’ai créé, je me suis dit que ça pourrait peut-être intéresser d’autres personnes. Donc je partage sur mon blog !
Ce contenu est constitué d’une série d’articles qui va de la création d’un cluster HDInsight à l’exploitation des données.
Sommaire des articles
- Création d’un cluster HDInsight
- Utilisation de MapReduce
- Utilisation de Hive
- Utilisation de Pig
- Analyses des données avec Power BI
Préparation des données
Via le portail Azure, connectez-vous à votre Data Lake Store.
Dans « Overview », cliquez sur « Data Explorer »
Dans « Data Explorer », cliquez sur « New Folder »
Donnez un nom à votre dossier, puis cliquez sur le bouton « Ok »
Téléchargez le fichier suivant :
Puis uploadez ce fichier dans le dossier que vous venez de créer, en cliquant sur « Upload » depuis le Data Explorer de Data Lake Store :
Connexion au cluster HDInsight
Depuis le portail Azure retrouvez votre cluster HDInsight
Cliquez sur « Overview » puis « Cluster Dashboards »
Cliquez sur « HDInsight cluster dashboard »
Vous devez arriver sur le dashboard du cluster
En haut à droite, cliquez sur les petits carrés et sélectionnez « Hive View »
Vous devez arriver sur une fenêtre similaire à celle ci-dessous :
Exécution du premier script Hive
Exécutez la requête suivante :
Show tables;
La requête ne va retourner, normalement, qu’une seule table : « Hivesampletable »
Cliquez sur le bouton bleu « New Worksheet » et copiez le code suivant.
Attention de bien changer le nom en rouge par le nom de votre Data Lake Store.
DROP TABLE IF EXISTS censusdata;
CREATE EXTERNAL TABLE censusdata (
sumlev string
, state string
, county string
, stname string
, ctyname string
, sex string
, origin string
, agegrp string
, imprace string
, respop string
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
STORED AS TEXTFILE LOCATION 'adl://funky.azuredatalakestore.net/census';
Voici une copie d’écran d’exemple :
Cliquez sur le bouton vert “Execute”
Quelques secondes après, vous devez obtenir le résultat suivant :
Revenez sur le premier script que vous avez créé en cliquant sur l’onglet du haut « Worksheet ». Puis exécutez le script à nouveau en cliquant sur le bouton vert « execute ». La nouvelle table censusdata apparaît alors.
Cliquez sur le bouton bleu « New Worksheet ». Entrez la requête suivante :
SELECT * FROM censusdata LIMIT 100;
Cliquez sur le bouton vert « Execute »
Vous devez obtenir le résultat ci-dessous. La table que nous avons créée pointe en réalité vers le fichier qui est stocké dans notre lac de données.
Dans le prochain article, nous allons voir comment utiliser Pig pour traiter un jeu de données.