Outils d’exploration de données dans Azure Databricks

Effectué

Après avoir ingéré des données à partir de vos sources, vous pouvez utiliser la plateforme Azure Databricks pour explorer et analyser vos données de manière collaborative.

Examinons les outils que vous utilisez pour travailler avec des données dans Azure Databricks.

Collaborer et exécuter du code avec des notebooks

Vous pouvez utiliser des notebooks dans Azure Databricks pour écrire du code Python, SQL, Scala ou R afin d’explorer et de visualiser des données. Les notebooks prennent en charge l’exploration interactive des données et peuvent être partagés entre les membres de l’équipe. Ils prennent également en charge les fonctionnalités de profilage des données permettant aux scientifiques des données de comprendre la forme et le contenu des données.

Capture d’écran des langues disponibles dans les notebooks Azure Databricks.

Vous pouvez utiliser les visualisations intégrées pour comprendre rapidement les distributions, les tendances et les modèles des données. En plus des fonctionnalités intégrées, Azure Databricks vous permet d’intégrer des bibliothèques open source couramment utilisées comme Matplotlib, Seaborn ou D3.js pour des visualisations plus complexes.

Utiliser des DataFrames Spark

Lorsque vous utilisez des données dans des notebooks, vous utilisez des DataFrames Spark basés sur Apache Spark. Les DataFrames vous permettent de manipuler efficacement des jeux de données volumineux.

Pour créer un DataFrame simple, vous pouvez exécuter le code suivant :

data = [("Alice", 34), ("Bob", 45), ("Cathy", 29)]
columns = ["Name", "Age"]
df = spark.createDataFrame(data, columns)

Les DataFrames prennent en charge les opérations telles que le filtrage, l’agrégation et la jointure, qui sont essentielles pour l’exploration des données.

Par exemple, vous pouvez filtrer un DataFrame :

filtered_df = df.filter(df["Age"] > 30)

Azure Databricks prend également en charge SQL en permettant de basculer entre les opérations DataFrame et les requêtes SQL pour interagir avec les données d’une manière plus naturelle.

Pour filtrer le DataFrame à l’aide d’une requête SQL, vous créez d’abord une vue temporaire :

df.createOrReplaceTempView("people")

sql_df = spark.sql("SELECT Name, Age FROM people WHERE Age > 30")

Conseil

Pour plus d’informations, découvrez comment charger et transformer des données à l’aide de DataFrames Apache Spark.

Explorer les données à l’aide de bibliothèques et d’API

Selon ce que vous souhaitez faire avec vos données, vous devez utiliser des bibliothèques et des API spécifiques qui vous fournissent les fonctionnalités nécessaires pour effectuer les opérations de traitement de données souhaitées.

Installer des bibliothèques open source

En tant qu’analyste données, ingénieur données ou scientifique des données, vous pouvez utiliser vos bibliothèques open source préférées pour explorer et traiter les données. Azure Databricks vous permet d’installer des bibliothèques Python telles que Pandas, NumPy ou Scikit-learn pour obtenir des fonctionnalités d’analyse de données supplémentaires.

Utiliser MLlib pour les charges de travail Machine Learning

Vous pouvez former des modèles Machine Learning pour vous aider à explorer et à traiter vos données. Avec MLlib de Spark, vous utilisez de manière optimale les clusters de calcul distribués attachés à vos notebooks. Avec la bibliothèque MLlib, vous pouvez appliquer des techniques de Machine Learning telles que le clustering, la régression et la classification, ce qui vous aide à découvrir des modèles cachés et complexes dans vos données.

Visualiser des données avec des outils de visualisation externes

Outre les options de graphique intégrées, Azure Databricks s’intègre à des outils de visualisation externes tels que Tableau ou Power BI via des API de visualisation de données pour des fonctionnalités de tableau de bord améliorées.

Conseil

En savoir plus sur l’utilisation des bibliothèques.

Gérer vos clusters de calcul

Lorsque vous souhaitez exécuter du code dans des notebooks, vous devez attacher un notebook à un cluster de calcul pour accéder à la puissance de traitement nécessaire.

Capture d’écran d’un cluster Azure Databricks.

Il existe deux avantages à gérer vos clusters de calcul dans Azure Databricks :

  • Mise à l’échelle automatique des clusters : Vous pouvez mettre automatiquement à l’échelle vos ressources de calcul en fonction de la charge de travail, ce qui vous permet d’optimiser les coûts et les performances pendant la phase d’exploration.
  • Clusters managés : Vous pouvez simplifier la gestion de votre cluster, car Azure Databricks gère la configuration et la maintenance.

Conseil

En savoir plus sur la gestion du calcul

Ces outils permettent font d’Azure Databricks une plateforme flexible pour l’exploration des données, en gérant tout, du simple nettoyage des données aux projets de Machine Learning avancés.