Démarrage : interroger et visualiser des données à partir d’un notebook
Cet article de démarrage explique pas à pas comment utiliser un notebook Azure Databricks pour interroger des exemples de données stockés dans Unity Catalog en utilisant SQL, Python, Scala et R, puis comment visualiser les résultats de la requête dans le notebook.
Spécifications
Pour effectuer les tâches décrites dans cet article, vous devez répondre aux exigences suivantes :
- Unity Catalog doit être activé pour votre espace de travail. Pour bien démarrer avec Unity Catalog, consultez Configurer et gérer Unity Catalog.
- Vous devez avoir l’autorisation d’utiliser une ressource de calcul existante ou d’en créer une. Consultez Prise en main d’Azure Databricks ou consultez votre administrateur Databricks.
Étape 1 : créer un notebook
Pour créer un notebook dans votre espace de travail, cliquez sur Nouveau dans la barre latérale, puis sur Notebook. Un notebook vide s’ouvre dans l’espace de travail.
Pour en savoir plus sur la création et la gestion des notebooks, consultez Gérer les notebooks.
Étape 2 : interroger une table
Interrogez la table samples.nyctaxi.trips
dans Unity Catalog en utilisant le langage de votre choix.
Copiez et collez le code suivant dans la nouvelle cellule de notebook vide. Ce code affiche les résultats de l’interrogation de la table
samples.nyctaxi.trips
dans Unity Catalog.SQL
SELECT * FROM samples.nyctaxi.trips
Python
display(spark.read.table("samples.nyctaxi.trips"))
Scala
display(spark.read.table("samples.nyctaxi.trips"))
R
library(SparkR) display(sql("SELECT * FROM samples.nyctaxi.trips"))
Appuyez sur
Shift+Enter
pour exécuter la cellule et passer à la cellule suivante.Les résultats de la requête s’affichent dans le notebook.
Étape 3 : afficher les données
Affichez le prix moyen par distance de trajet, en regroupant les résultats selon le code postal au départ de la course.
Près de l’onglet Table, cliquez sur +, puis sur Visualisation.
L’éditeur de visualisation affiche.
Dans la liste déroulante Type de visualisation, vérifiez que Barre est sélectionnée.
Sélectionnez
fare_amount
pour la Colonne X.Sélectionnez
trip_distance
pour la Colonne Y.Sélectionnez
Average
comme type d’agrégation.Sélectionnez
pickup_zip
pour la colonne Regrouper par.Cliquez sur Enregistrer.
Étapes suivantes
- Pour en savoir plus sur l’ajout de données à partir d’un fichier CSV dans Unity Catalog et sur la visualisation des données, consultez Prise en main : Importer et visualiser des données CSV à partir d’un bloc-notes.
- Pour savoir comment charger des données dans Databricks à l’aide d’Apache Spark, consultez Tutoriel : charger et transformer des données en utilisant des DataFrames Apache Spark.
- Pour en savoir plus sur l’ingestion de données dans Databricks, consultez Ingérer des données dans un lakehouse Databricks.
- Pour en savoir plus sur l’interrogation de données avec Databricks, consultez Interroger des données.
- Pour en savoir plus sur les visualisations, consultez Visualisations dans les notebooks Databricks.