Spark pour Azure HDInsight et Power BI – 2nde partie
J’ai le plaisir de publier dans ce blog la seconde partie du billet rédigé par Romain Casteres , Microsoft Premier Field Engineer (PFE) - SQL Server & BI chez Microsoft France et également du membre du bureau du Groupe des Utilisateurs francophones de SQL Server ( GUSS) .
Après une première partie dédiée à Apache Spark pour Azure HDInsight en version préliminaire publique le 11 juillet dernier, ce second volet s’intéresse à l’utilisation de Power BI avec Spark.
Je vous souhaite une bonne lecture de ce billet fort intéressant et n’hésitez pas à consulter sur le blog de Romain tous ses autres billets déjà publiés ! ;-) Vous pouvez aussi retrouver Romain bien évidemment sur Twitteret LinkedIn .
--Philippe
_____________________________________________________________________________________________
Power BI avec Spark
Microsoft Power BI est un ensemble de services et de fonctionnalités en ligne qui vous permettent de rechercher et de visualiser des données, de partager des découvertes et de collaborer en utilisant de nouvelles méthodes intuitives.
Depuis le 24 Juillet dernier, la dernière version de Power BI est en GA, je vous invite à essayer le Designer, le nouveau Portail ou encore les applications mobiles et Desktop.
Voici le portail Power BI :
Depuis le portail il est possible de récupérer un jeu de données provenant de :
- Votre organisation
- Services externes comme Github, MailChimp, Google Analytics, etc.
- Fichiers locaux, OneDrive
- Services comme Azure SQL Database, Azure SQL Data Warehouse, SQL Server Analysis et depuis un cluster HDInsight Spark (via le driver Spark ODBC)
Je vais donc me connecter au cluster HDInsight Spark depuis le portail Power BI :
Après avoir enregistré le rapport, il est possible de publier les différents éléments de celui-ci dans un Dashboard :
En guise de conclusion
Il est de plus en plus aisé d’analyser de grosse volumétrie de données et ceux avec des temps d’exécutions de moins en moins longs !
HDInsight Spark vient compléter les services Big Data dans Azure, il faut le voir comme un complément et non comme un remplaçant de HDInsight Hadoop. Dans Hadoop vous stockez toutes vos données semi-structurées dans un HDFS et profitez de la flexibilité du Map Reduce pour les requêter. HDInsight quant à lui tire parti de l’In-Memory pour exécuter des algorithmes de Datamining, pour effectuer des analyses interactives ou encore du streaming.
Voici un tableau récapitulatif des outils évoqués et leurs utilisations :
Hadoop |
Spark |
Microsoft |
|
Exécution de tâches en parallèle |
Map Reduce ou Tez |
Spark |
(APS) |
Exécution de tâches de type SQL |
Hive |
Spark |
|
Stockage de données non structurées |
HDFS |
(HDFS via Hadoop) |
Azure Blobs |
Stockage NoSQL |
HBase |
||
Machine Learning |
Mahout |
Spark MLlib |
|
Streaming data |
Spark Streaming |
Stream Analytics |
Et quelques ressources pour la route des vacances ;-)
Voici quelques ressources sur les sujets abordés :