Beispieldatasets

Artikel
11/06/2024

Es gibt eine Vielzahl von Beispieldatasets, die von Azure Databricks bereitgestellt und von Drittanbietern zur Verfügung gestellt werden, die Sie in Ihrem Azure Databricks-Arbeitsbereich verwenden können.

Unity Catalog-Datasets

Unity Catalog bietet Zugriff auf eine Reihe von Beispieldatasets im samples-Katalog. Sie können diese Datasets auf der Benutzeroberfläche des Katalog-Explorers überprüfen und direkt in einem Notebook oder im SQL-Editor auf sie verweisen, indem Sie das <catalog-name>.<schema-name>.<table-name>-Muster verwenden.

Das nyctaxi-Schema (auch als Datenbank bekannt) enthält die Tabelle trips, in der Einzelheiten über Taxifahrten in New York City gespeichert sind. Die folgende Anweisung gibt die ersten 10 Datensätze in dieser Tabelle zurück:

SELECT * FROM samples.nyctaxi.trips LIMIT 10

Das tpch-Schema enthält Daten aus der TPC-H-Benchmark. Führen Sie zum Auflisten der Tabellen in diesem Schema Folgendes aus:

SHOW TABLES IN samples.tpch

Beispieldatasets von Drittanbietern im CSV-Format

Azure Databricks verfügt über integrierte Tools zum schnellen Hochladen von Beispieldatasets von Drittanbietern als CSV-Dateien (durch Trennzeichen getrennte Werte) in Azure Databricks-Arbeitsbereiche. Dies sind einige beliebte Beispieldatasets von Drittanbietern, die im CSV-Format verfügbar sind:

Beispieldataset	So laden Sie das Beispieldataset als CSV-Datei herunter...
Squirrel Census	Klicken Sie auf der Webseite Data auf Park Data, Squirrel Data oder Stories.
OWID-Datasetsammlung	Klicken Sie im GitHub-Repository auf den Ordner datasets. Klicken Sie auf den Unterordner, der das Zieldataset enthält, und klicken Sie dann auf die CSV-Datei des Datasets.
Data.gov-CSV-Datasets	Klicken Sie auf der Webseite mit den Suchergebnissen auf das Zielsuchergebnis, und klicken Sie neben dem CSV-Symbol auf Download.
Diamonds (erfordert ein Kaggle-Konto)	Klicken Sie auf der Webseite des Datasets auf der Registerkarte Data auf der Registerkarte Data neben diamonds.csv auf das Downloadsymbol.
NYC Taxi Trip Duration (erfordert ein Kaggle-Konto)	Klicken Sie auf der Webseite des Datasets auf der Registerkarte Data neben sample_submission.zip auf das Downloadsymbol. Um die CSV-Dateien des Datasets zu finden, extrahieren Sie den Inhalt der heruntergeladenen ZIP-Datei.

Gehen Sie wie folgt vor, um Beispieldatasets von Drittanbietern in Ihrem Azure Databricks-Arbeitsbereich zu verwenden:

Folgen Sie den Anweisungen des Drittanbieters, um das Dataset als CSV-Datei auf Ihren lokalen Computer herunterzuladen.
Laden Sie die CSV-Datei von Ihrem lokalen Computer in Ihren Azure Databricks-Arbeitsbereich hoch.
Um mit den importierten Daten zu arbeiten, verwenden Sie Databricks SQL, um die Daten abzufragen. Sie können auch ein Notebook verwenden, um die Daten als DataFrame zu laden.

Beispieldatasets von Drittanbietern in Bibliotheken

Einige Drittanbieter enthalten Beispieldatasets in Bibliotheken, z. B. PyPI-Pakete (Python Package Index) oder CRAN-Pakete (Comprehensive R Archive Network). Weitere Informationen finden Sie in der Dokumentation des Bibliotheksanbieters.

Informationen zum Installieren einer Bibliothek in einem Azure Databricks-Cluster mithilfe der Benutzeroberfläche des Clusters finden Sie unter Clusterbibliotheken.
Informationen zum Installieren einer Python-Bibliothek mithilfe eines Azure Databricks-Notebooks finden Sie unter Python-Bibliotheken im Notebook-Bereich.
Informationen zum Installieren einer R-Bibliothek mithilfe eines Azure Databricks-Notebooks finden Sie unter R-Bibliotheken im Notebook-Bereich.

Databricks-Datasets (databricks-datasets), die im DBFS bereitgestellt werden

Azure Databricks rät in den meisten Anwendungsfällen in Databricks-Arbeitsbereichen, in denen Unity Catalog aktiviert ist, davon ab, DBFS und bereitgestellte Cloudobjektspeicher zu verwenden. Einige Beispieldatasets, die im DBFS bereitgestellt werden, sind in Azure Databricks verfügbar.

Hinweis

Die Verfügbarkeit und der Speicherort von Databricks-Datasets können ohne Ankündigung geändert werden.

Durchsuchen von im DBFS bereitgestellten Databricks-Datasets

Zum Durchsuchen dieser Dateien aus einem Python-, Scala- oder R-Notebook können Sie die Referenz zu Databricks-Hilfsprogrammen (dbutils) verwenden. Der folgende Code listet alle verfügbaren Databricks-Datasets auf.

Python

display(dbutils.fs.ls('/databricks-datasets'))

Scala

display(dbutils.fs.ls("/databricks-datasets"))

R

%fs ls "/databricks-datasets"

Freigeben über