Lab Azure Big Data (5 et fin) : analyses des données avec Power BI
Dans le cadre d’un programme de “readiness” interne, j’ai participé à la création de contenu autour du Big Data. Comme j’ai eu de nombreuses demandes pour récupérer le contenu que j’ai créé, je me suis dit que ça pourrait peut-être intéresser d’autres personnes. Donc je partage sur mon blog !
Ce contenu est constitué d’une série d’articles qui va de la création d’un cluster HDInsight à l’exploitation des données.
Sommaire des articles
- Création d’un cluster HDInsight
- Utilisation de MapReduce
- Utilisation de Hive
- Utilisation de Pig
- Analyses des données avec Power BI
Pré-requis
Ce lab peut être réalisé avec Power BI Desktop ou les Add-ins Power BI pour Excel 2016. Nous allons utiliser Power BI Desktop qui peut être téléchargé ici
Connexion aux données
Depuis Power BI Desktop, cliquez sur le bouton « Get Data » puis « More … »
Power BI Desktop propose un large choix de connecteurs. Pour ce lab nous allons choisir Data Lake Store comme source de données.
Cliquez sur « Azure » puis sur « Microsoft Azure Data Lake Store (Beta) ». (Vous pouvez choisir une autre source, si le fichier des logs ne trouve pas dans un data lake)
Cliquez sur le bouton « Connect »
Dans la fenêtre de connexion, entrez l’URL de votre lac de données.
Cliquez sur le bouton « Ok » :
Cliquez ensuite sur « Sign in » pour vous authentifier. Cliquez sur le bouton « Connect » :
Une fois connecté au lac de données, une fenêtre d’aperçu apparaît. Cliquez sur le bouton « Edit » :
La fenêtre d’édition de requête s’ouvre. Rechercher le fichier résultant du traitement pig réalisé durant le lab précédent.
Ce fichier à un nom de la forme « part-r- ». Ici, le fichier se trouve dans « user/franmer/output-wikipedialogs ». Pour naviguer dans les données, dans la colonne « Content », cliquez sur « Table »
Ensuite cliquez sur « Table » correspondant à votre nom d’utilisateur :
Puis sélectionnez le dossier contenant le fichier à traiter. Cliquez à nouveau sur « Table » :
Une fois au niveau du fichier, cliquez sur « Binary » :
Un aperçu des données est donc disponible :
Nettoyage des données
Power BI Desktop permet de mettre en forme rapidement les données, afin de pouvoir les exploiter dans des rapports.
L’idée, est de pouvoir isoler les différentes informations que l’on a au sein des colonnes. Si on regarde bien, comme information intéressante, nous avons le titre de l’article et la langue dans lequel cet article a été écrit. L’idée étant d’isoler ces informations au sein de colonnes distinctes.
Faîtes un clic droit sur la colonne « Column1 ». Dans le menu contextuel sélectionnez « Split Column » puis « By Number of Characters … »
Le but étant d’isoler la langue de l’article. Nous allons donc partir de la droite sur 3 caractères. Remplissez le champ « Number of caracters », puis sélectionnez « Once, as far right as possible ». Cliquez sur le bouton « Ok »
Ci-dessous le résultat obtenu. Une nouvelle colonne contient maintenant l’information sur la langue de l’article.
Afin de nettoyer la nouvelle colonne, faîtes un clic droit sur « Column1.2 » puis sélectionnez « Replace Values … »
Remplacez la parenthèse « ) » par aucune valeur dans le champ « Replace with ». Cliquez sur le bouton « Ok ».
Ci-dessous, une copie d’écran du résultat
Continuez de nettoyer le jeu de données de la même manière. Au final on peut imaginer obtenir un résultat comme celui-ci-dessous. Pensez à renommer les colonnes pour une meilleure utilisation des données lors de la phase de création de rapport.
Pour information, sur la droite, vous retrouvez toutes les étapes de vos transformations
Une fois les transformations terminées, cliquez sur le bouton « Close and Apply » :
Création du rapport
Afin de créer un rapport avec Power BI Desktop, assurez-vous d’être dans la partie création de rapport. Pour ce faire, cliquez sur le bouton « Report » à gauche de l’écran.
Une fois dans l’éditeur de rapport, vous avez accès, sur la droite, aux différentes visualisations et aux champs issues de la transformation de données.
Pour commencer à créer un rapport, il suffit, par exemple, de cliquer sur une visualisation puis de rajouter les champs que l’on désire analyser.
Ci-dessous un exemple de rapport avec une visualisation de type « Tree map » :
Afin de rendre lisible ce rapport, il peut être utile d’utiliser les filtres de type « Top N » ou « sélection ». Dans l’exemple du « Tree map », nous allons faire un top N.
Cliquez sur la visualisation que vous souhaitez filtrer. Sur la droite, dans la partie « Filters », sélectionnez le champ sur lequel vous souhaitez appliquer le filtre. Ici, nous allons sélectionner le champ « Article ». Dans la liste déroulante « Filter Type », sélectionnez « Top N ».
Renseignez les différents champs du Filtre TOP N, puis cliquez sur « Apply filter »
Un autre type de filtre peut être utilisé dans un rapport, ce sont les « slicers » :
De plus, les visualisations sont interactives et peuvent servir de filtre aux autres visualisations du rapport par simple clic sur un élément d’une visualisation.
En utilisant les différentes visualisations disponibles, essayez de créer un rapport sur les données récupérées depuis le site Wikipédia. Ci-dessous, un exemple de rapport.
Enrichissement du rapport
Power BI Desktop peut être enrichi avec des visualisations développées par la communauté ou par vous-même. Ces visualisations personnalisées sont disponibles sur le site https://store.office.com/en-us/appshome.aspx?productgroup=PowerBI.
Depuis ce site, vous avez la possibilité de télécharger de nouveaux composants visuels que vous pouvez intégrer à votre rapport Power BI desktop. L’intégration de nouveaux composants visuels se fait directement depuis Power BI Desktop en cliquant sur les trois petits « … » dans la partie « Visualizations … »
Pour aller plus loin
Lors de la récupération et transformation de données, nous avons vu que toutes les étapes étaient répertoriées et accessibles sur la droite de l’écran. Cela permet de revenir sur une étape précise de la transformation pour la modifier si besoin.
Pour modifier une requête existante, dans l’onglet « Home », cliquez sur « Edit Queries » :
Sur la droite, les étapes de transformation sont disponibles pour modification.
De plus, chacune de ces étapes sont retranscrites dans le langage M. L’accès au code de transformation est possible via l’onglet « View », « Advanced Editor ».
Ci-dessous un exemple du code M de notre transformation :
Ci-dessous, un lien vers un article qui utilise le Code M pour invoquer un algorithme de Machine Learning durant une étape de transformation :
C’était le dernier article de cette série. En espérant que cela vous ait été utile.