Lab Azure Big Data (5 et fin) : analyses des données avec Power BI

Dans le cadre d’un programme de “readiness” interne, j’ai participé à la création de contenu autour du Big Data. Comme j’ai eu de nombreuses demandes pour récupérer le contenu que j’ai créé, je me suis dit que ça pourrait peut-être intéresser d’autres personnes. Donc je partage sur mon blog Smile !

Ce contenu est constitué d’une série d’articles qui va de la création d’un cluster HDInsight à l’exploitation des données.

Sommaire des articles

  1. Création d’un cluster HDInsight
  2. Utilisation de MapReduce
  3. Utilisation de Hive
  4. Utilisation de Pig
  5. Analyses des données avec Power BI

Pré-requis

Ce lab peut être réalisé avec Power BI Desktop ou les Add-ins Power BI pour Excel 2016. Nous allons utiliser Power BI Desktop qui peut être téléchargé ici

Connexion aux données

Depuis Power BI Desktop, cliquez sur le bouton « Get Data » puis « More »

image

Power BI Desktop propose un large choix de connecteurs. Pour ce lab nous allons choisir Data Lake Store comme source de données.

Cliquez sur « Azure » puis sur « Microsoft Azure Data Lake Store (Beta) ». (Vous pouvez choisir une autre source, si le fichier des logs ne trouve pas dans un data lake)

Cliquez sur le bouton « Connect »

image

Dans la fenêtre de connexion, entrez l’URL de votre lac de données.

Cliquez sur le bouton « Ok » :

image

Cliquez ensuite sur « Sign in » pour vous authentifier. Cliquez sur le bouton « Connect » :

image

Une fois connecté au lac de données, une fenêtre d’aperçu apparaît. Cliquez sur le bouton « Edit » :

image

La fenêtre d’édition de requête s’ouvre. Rechercher le fichier résultant du traitement pig réalisé durant le lab précédent.

Ce fichier à un nom de la forme « part-r- ». Ici, le fichier se trouve dans « user/franmer/output-wikipedialogs ». Pour naviguer dans les données, dans la colonne « Content », cliquez sur « Table »

image

Ensuite cliquez sur « Table » correspondant à votre nom d’utilisateur :

image

Puis sélectionnez le dossier contenant le fichier à traiter. Cliquez à nouveau sur « Table » :

image

Une fois au niveau du fichier, cliquez sur « Binary » :

image

Un aperçu des données est donc disponible :

image

Nettoyage des données

Power BI Desktop permet de mettre en forme rapidement les données, afin de pouvoir les exploiter dans des rapports.

L’idée, est de pouvoir isoler les différentes informations que l’on a au sein des colonnes. Si on regarde bien, comme information intéressante, nous avons le titre de l’article et la langue dans lequel cet article a été écrit. L’idée étant d’isoler ces informations au sein de colonnes distinctes.

Faîtes un clic droit sur la colonne « Column1 ». Dans le menu contextuel sélectionnez « Split Column » puis « By Number of Characters »

image

Le but étant d’isoler la langue de l’article. Nous allons donc partir de la droite sur 3 caractères. Remplissez le champ « Number of caracters », puis sélectionnez « Once, as far right as possible ». Cliquez sur le bouton « Ok »

image

Ci-dessous le résultat obtenu. Une nouvelle colonne contient maintenant l’information sur la langue de l’article.

image

Afin de nettoyer la nouvelle colonne, faîtes un clic droit sur « Column1.2 » puis sélectionnez « Replace Values »

image

Remplacez la parenthèse « ) » par aucune valeur dans le champ « Replace with ». Cliquez sur le bouton « Ok ».

image

Ci-dessous, une copie d’écran du résultat

image

Continuez de nettoyer le jeu de données de la même manière. Au final on peut imaginer obtenir un résultat comme celui-ci-dessous. Pensez à renommer les colonnes pour une meilleure utilisation des données lors de la phase de création de rapport.

image

Pour information, sur la droite, vous retrouvez toutes les étapes de vos transformations

image

Une fois les transformations terminées, cliquez sur le bouton « Close and Apply » :

image

Création du rapport

Afin de créer un rapport avec Power BI Desktop, assurez-vous d’être dans la partie création de rapport. Pour ce faire, cliquez sur le bouton « Report » à gauche de l’écran.

Une fois dans l’éditeur de rapport, vous avez accès, sur la droite, aux différentes visualisations et aux champs issues de la transformation de données.

Pour commencer à créer un rapport, il suffit, par exemple, de cliquer sur une visualisation puis de rajouter les champs que l’on désire analyser.

image

Ci-dessous un exemple de rapport avec une visualisation de type « Tree map » :

image

Afin de rendre lisible ce rapport, il peut être utile d’utiliser les filtres de type « Top N » ou « sélection ». Dans l’exemple du « Tree map », nous allons faire un top N.

Cliquez sur la visualisation que vous souhaitez filtrer. Sur la droite, dans la partie « Filters », sélectionnez le champ sur lequel vous souhaitez appliquer le filtre. Ici, nous allons sélectionner le champ « Article ». Dans la liste déroulante « Filter Type », sélectionnez « Top N ».

Renseignez les différents champs du Filtre TOP N, puis cliquez sur « Apply filter »

image

Un autre type de filtre peut être utilisé dans un rapport, ce sont les « slicers » :

image

De plus, les visualisations sont interactives et peuvent servir de filtre aux autres visualisations du rapport par simple clic sur un élément d’une visualisation.

En utilisant les différentes visualisations disponibles, essayez de créer un rapport sur les données récupérées depuis le site Wikipédia. Ci-dessous, un exemple de rapport.

image

Enrichissement du rapport

Power BI Desktop peut être enrichi avec des visualisations développées par la communauté ou par vous-même. Ces visualisations personnalisées sont disponibles sur le site https://store.office.com/en-us/appshome.aspx?productgroup=PowerBI.

image

Depuis ce site, vous avez la possibilité de télécharger de nouveaux composants visuels que vous pouvez intégrer à votre rapport Power BI desktop. L’intégration de nouveaux composants visuels se fait directement depuis Power BI Desktop en cliquant sur les trois petits « … » dans la partie « Visualizations »

image

Pour aller plus loin

Lors de la récupération et transformation de données, nous avons vu que toutes les étapes étaient répertoriées et accessibles sur la droite de l’écran. Cela permet de revenir sur une étape précise de la transformation pour la modifier si besoin.

Pour modifier une requête existante, dans l’onglet « Home », cliquez sur « Edit Queries » :

image

Sur la droite, les étapes de transformation sont disponibles pour modification.

image

De plus, chacune de ces étapes sont retranscrites dans le langage M. L’accès au code de transformation est possible via l’onglet « View », « Advanced Editor ».

image

Ci-dessous un exemple du code M de notre transformation :

image

Ci-dessous, un lien vers un article qui utilise le Code M pour invoquer un algorithme de Machine Learning durant une étape de transformation :

https://blogs.technet.microsoft.com/franmer/2014/11/06/power-bi-power-query-machine-learning-et-des-zombies/

C’était le dernier article de cette série. En espérant que cela vous ait été utile.

Franck Mercier