Erste Schritte: Abfragen und Visualisieren von Daten aus einem Notebook
Dieser Einführungsartikel führt Sie durch die Verwendung eines Azure Databricks-Notebooks zum Abfragen von Beispieldaten, die in Unity Catalog gespeichert sind, mit SQL, Python, Scala und R, und das anschließende Visualisieren der Abfrageergebnisse im Notebook.
Anforderungen
Um die Aufgaben in diesem Artikel abzuschließen, müssen die folgenden Anforderungen erfüllt sein:
- Ihr Arbeitsbereich muss für Unity Catalog aktiviert sein. Weitere Informationen zu den ersten Schritten mit Unity Catalog finden Sie unter Einrichten und Verwalten von Unity Catalog.
- Sie müssen über die Berechtigung verfügen, eine vorhandene Computeressource zu verwenden oder eine neue Computeressource zu erstellen. Weitere Informationen erhalten Sie unter Erste Schritte: Einrichten von Konto und Arbeitsbereich oder von Ihren Databricks-Administratoren/-Administratorinnen.
Schritt 1: Erstellen eines neuen Notebooks
Wenn Sie ein Notebook in Ihrem Arbeitsbereich erstellen möchten, wählen Sie in der Randleiste Neu aus, und wählen Sie dann Notebook aus. Im Arbeitsbereich wird ein leeres Notebook geöffnet.
Weitere Informationen zum Erstellen und Verwalten von Notebooks finden Sie unter Verwalten von Notebooks.
Schritt 2: Abfragen einer Tabelle
Fragen Sie die Tabelle samples.nyctaxi.trips
in Unity Catalog mithilfe Ihrer bevorzugten Sprache ab.
Kopieren Sie den folgenden Code, und fügen Sie ihn in die neue leere Notebookzelle ein. Dieser Code zeigt die Ergebnisse der Abfrage der Tabelle
samples.nyctaxi.trips
in Unity Catalog an.SQL
SELECT * FROM samples.nyctaxi.trips
Python
display(spark.read.table("samples.nyctaxi.trips"))
Scala
display(spark.read.table("samples.nyctaxi.trips"))
R
library(SparkR) display(sql("SELECT * FROM samples.nyctaxi.trips"))
Drücken Sie
Shift+Enter
, um die Zelle auszuführen, und wechseln Sie dann zur nächsten Zelle.Die Abfrageergebnisse werden im Notebook angezeigt.
Schritt 3: Anzeigen der Daten
Zeigen Sie den durchschnittlichen Fahrpreis nach Fahrstrecke an, gruppiert nach der Postleitzahl des Startpunkts.
Klicken Sie neben der Registerkarte Tabelle auf + und klicken Sie dann auf Visualisierung.
Der Visualisierungs-Editor wird angezeigt.
Vergewissern Sie sich, dass in der Dropdownliste VisualisierungstypLeiste ausgewählt ist.
Wählen Sie
fare_amount
für die X-Spalte aus.Wählen Sie
trip_distance
für die Y-Spalte aus.Wählen Sie
Average
als Aggregationstyp aus.Wählen Sie
pickup_zip
als Gruppieren nach-Spalte aus, nach der gruppiert werden soll.Klicken Sie auf Speichern.
Nächste Schritte
- Informationen zum Hinzufügen von Daten aus der CSV-Datei zu Unity Catalog und zum Visualisieren von Daten finden Sie unter Erste Schritte: Importieren und Visualisieren von CSV-Daten aus einem Notebook.
- Weitere Informationen zum Laden von Daten in Databricks mit Apache Spark finden Sie im Tutorial: Laden und Transformieren von Daten mithilfe von Apache Spark-DataFrames.
- Weitere Informationen zum Erfassen von Daten in Databricks finden Sie unter Erfassen von Daten in einem Databricks-Lakehouse.
- Weitere Informationen zum Abfragen von Daten mit Databricks finden Sie unter Abfragen von Daten.
- Weitere Informationen zu Visualisierungen finden Sie unter Visualisierungen in Databricks-Notebooks.