Exercice : charger et interroger des données dans HDInsight

Effectué

Maintenant que vous avez approvisionné un compte de stockage et un cluster Interactive Query, il est temps de charger vos données immobilières et d’exécuter quelques requêtes. Les données que vous allez charger sont des données du parc immobilier de la ville de New York. Elles comprennent plus de 28 000 enregistrements de propriété, contenant les adresses, les prix de vente, les surfaces, ainsi que des informations géocodées destinées à faciliter le mappage. Votre société immobilière utilise ces informations pour déterminer les prix au mètre carré appropriés pour les nouvelles propriétés qui arrivent sur le marché, en fonction des prix de vente des propriétés précédemment vendues.

Pour charger et interroger des données, nous allons utiliser Data Analytics Studio, une application Web qui a été installée dans l’action de script que nous avons utilisée lors de la création du cluster Interactive Query. Vous pouvez utiliser Data Analytics Studio pour charger des données dans le stockage Azure, transformer les données en tables Hive à l’aide des types de données et des noms de colonne que vous avez définis, puis interroger les données sur votre cluster à l’aide de HiveQL. En plus de Data Analytics Studio, vous pouvez utiliser n’importe quel outil compatible ODBC/JDBC pour travailler avec vos données à l’aide de Hive, par exemple Spark & Hive Tools for Visual Studio Code.

Vous allez ensuite utiliser un bloc-notes Zeppelin pour visualiser rapidement les tendances dans les données. Les blocs-notes Zeppelin vous permettent d’envoyer des requêtes et d’afficher les résultats dans plusieurs graphiques prédéfinis. Les blocs-notes Zeppelin installés sur les clusters Interactive Query utilisent un interpréteur JDBC avec un pilote Hive.

Télécharger des données immobilières

  1. Accédez à https://github.com/Azure/hdinsight-mslearn/tree/master/Sample%20data, puis téléchargez le jeu de données pour enregistrer le fichier propertysales.csv sur votre ordinateur.

Charger les données à l’aide de Data Analytics Studio

  1. À présent, ouvrez Data Analytics Studio dans votre navigateur Internet en utilisant l’URL suivante, en remplaçant servername par le nom de cluster que vous avez utilisé : https://servername.azurehdinsight.net/das/

Pour vous connecter, le nom d’utilisateur est adminet le mot de passe est le mot de passe que vous avez créé.

Si vous rencontrez une erreur, accédez à l’onglet Vue d’ensemble du cluster dans le Portail Azure, vérifiez que l’état est défini sur En cours d’exécution, que le type Cluster est défini et que la version de HDI est définie sur Interactive Query 3.1 (HDI 4.0).

  1. Data Studio Analytics démarre dans le navigateur Internet.

A screenshot of the Data Analytics Studio application

  1. Dans le menu de gauche, cliquez sur Base de données, cliquez sur le bouton de vert en forme d’ellipse, puis cliquez sur Créer une base de données.

A screenshot of the Create Database button in the Data Analytics Studio application

  1. Nommez la base de données « newyorkrealestate » puis cliquez sur Créer.

  2. Dans l’Explorateur de base de données, cliquez sur la zone Nom de la base de données et sélectionnez newyorkrealestate.

Database Explorer in the Data Analytics Studio application

  1. Dans l’Explorateur de base de données, cliquez sur +, puis sur Table.

Create table button Database Explorer in the Data Analytics Studio application

  1. Nommez la nouvelle table « propertysales », puis cliquez sur Charger la table. Les noms de tables doivent contenir uniquement des lettres minuscules et des chiffres, sans caractères spéciaux.

Upload table in the Data Analytics Studio application

  1. Dans la zone Sélectionner le format de fichier de la page :
    • Vérifiez que le format de fichier est CSV
    • Cochez la case Est l'en-tête de première ligne ?.
  2. Dans la zone Sélectionner une source de fichier de la page :
    • Sélectionnez Charger en local.
    • Cliquez sur Faire glisser le fichier à charger ou cliquez sur Parcourir et accédez au fichier propertysales.csv.
  3. Dans la section Colonnes, modifiez le type de données Latitude et Longitude en Chaîne et la date de vente en Date.

Change data type in the Data Analytics Studio application

  1. Faites défiler vers le haut et passez en revue la section Aperçu de la table pour vérifier que les en-têtes de colonnes sont corrects.

Table preview in the Data Analytics Studio application

  1. Faites défiler jusqu’en bas et cliquez sur Créer pour créer la table Hive dans la base de données newyorkrealestate.

Create Hive Table button in the Data Analytics Studio application

  1. Dans le menu de gauche, cliquez sur Composer.

Compose button in the Data Analytics Studio application

  1. Essayez la requête Hive suivante pour vous assurer que tout fonctionne comme prévu.
SELECT `ADDRESS`, `ZIP CODE`, `SALE PRICE`, `SQUARE FOOTAGE`
FROM newyorkrealestate.propertysales;
  1. Le résultat doit être semblable à ce qui suit.

Query output in the Data Analytics Studio application

  1. Vérifiez que votre requête fonctionne correctement en cliquant sur Requêtes dans le menu de gauche, puis en sélectionnant l’instruction SELECT ADDRESS, ZIP CODE, SALE PRICE, SQUARE FOOTAGE à partir de la requête newyorkrealestate.propertysales que vous venez d’exécuter.

Si des recommandations de performances sont disponibles, l’outil les affiche. Cette page affiche également la requête SQL réelle qui a été exécutée, fournit une explication visuelle de la requête, affiche les détails de configuration déduits par Hive lors de l’exécution de la requête, et fournit une chronologie qui indique le temps passé à exécuter chaque partie de la requête.

Explorer les tables Hive à l’aide d’un bloc-notes Zeppelin

  1. Sur la page Vue d’ensemble du Portail Azure, dans la zone Tableau de bord du cluster, cliquez sur Bloc-notes Zeppelin.

Opening a Zeppelin Notebook in the Azure portal

  1. Cliquez sur Nouvelle note, nommez-la « Données immobilières », puis cliquez sur Créer.

Create a new Zeppelin Notebook in the Azure portal

  1. Collez l’extrait de code suivant dans l’invite de commandes, dans la fenêtre Zeppelin, puis cliquez sur l’icône de lecture.
%jdbc(hive)
show databases;
select * from newyorkrealestate.propertysales limit 10 ; 

Le résultat de la requête s’affiche dans la fenêtre. Vous pouvez voir que les 10 premiers résultats sont retournés.

Viewing Query results in a Zeppelin Notebook in the Azure portal

  1. À présent, lancez une requête plus complexe pour utiliser certaines des fonctionnalités de visualisation et de représentation graphique disponibles dans Zeppelin. Copiez la requête suivante dans l’invite de commandes, puis exécutez-la.
%jdbc(hive)
select `sale price`, `square footage` from newyorkrealestate.propertysales 
where `sale price` < 20000000 AND `square footage` < 50000;

Par défaut, le résultat de la requête s’affiche sous forme de tableau. Remplacez ce format en sélectionnant Nuage de points pour voir l’un des visuels fournis par les blocs-notes Zeppelin.

Visualizations in a Zeppelin Notebook in the Azure portal