Voorbeeldgegevenssets

Artikel
11/06/2024

Er zijn verschillende voorbeeldgegevenssets van Azure Databricks en beschikbaar gesteld door derden die u kunt gebruiken in uw Azure Databricks-werkruimte.

Unity Catalog-gegevenssets

Unity Catalog biedt toegang tot een aantal voorbeeldgegevenssets in de samples catalogus. U kunt deze gegevenssets bekijken in de gebruikersinterface van Catalog Explorer en deze rechtstreeks in een notebook of in de SQL-editor verwijzen met behulp van het <catalog-name>.<schema-name>.<table-name> patroon.

Het nyctaxi schema (ook wel een database genoemd) bevat de tabel trips, met details over taxiritten in New York City. Met de volgende instructie worden de eerste 10 records in deze tabel geretourneerd:

SELECT * FROM samples.nyctaxi.trips LIMIT 10

Het tpch schema bevat gegevens uit de TPC-H-benchmark. Voer de volgende opdracht uit om de tabellen in dit schema weer te geven:

SHOW TABLES IN samples.tpch

Voorbeeldgegevenssets van derden in CSV-indeling

Azure Databricks heeft ingebouwde hulpprogramma's om snel voorbeeldgegevenssets van derden te uploaden als csv-bestanden (door komma's gescheiden waarden) naar Azure Databricks-werkruimten. Enkele populaire voorbeeldgegevenssets van derden die beschikbaar zijn in CSV-indeling:

Voorbeeldgegevensset	De voorbeeldgegevensset downloaden als een CSV-bestand...
De eekhoorn volkstelling	Klik op de webpagina Gegevens op Park Data, Eekhoorngegevens of Verhalen.
OWID-gegevenssetverzameling	Klik in de GitHub-opslagplaats op de map gegevenssets . Klik op de submap met de doelgegevensset en klik vervolgens op het CSV-bestand van de gegevensset.
DATA.GOV CSV-gegevenssets	Klik op de webpagina met zoekresultaten op het doelzoekresultaat en klik naast het CSV-pictogram op Downloaden.
Diamanten (vereist een Kaggle-account )	Klik op de webpagina van de gegevensset, op het tabblad Gegevens, op het tabblad Gegevens, naast diamonds.csv, op het pictogram Downloaden.
Duur van taxirit nyc (vereist een Kaggle-account )	Klik op de webpagina van de gegevensset op het tabblad Gegevens naast sample_submission.zip op de knop Downloadpictogram . Als u de CSV-bestanden van de gegevensset wilt zoeken, extraheert u de inhoud van het gedownloade ZIP-bestand.

Ga als volgt te werk om voorbeeldgegevenssets van derden te gebruiken in uw Azure Databricks-werkruimte:

Volg de instructies van derden om de gegevensset als EEN CSV-bestand te downloaden naar uw lokale computer.
Upload het CSV-bestand vanaf uw lokale computer naar uw Azure Databricks-werkruimte.
Als u met de geïmporteerde gegevens wilt werken, gebruikt u Databricks SQL om een query uit te voeren op de gegevens. U kunt ook een notebook gebruiken om de gegevens als een DataFrame te laden.

Voorbeeldgegevenssets van derden in bibliotheken

Sommige derden bevatten voorbeeldgegevenssets in bibliotheken, zoals PyPI-pakketten (Python Package Index) of Uitgebreide R Archive Network-pakketten (CRAN). Zie de documentatie van de bibliotheekprovider voor meer informatie.

Zie Clusterbibliotheken als u een bibliotheek wilt installeren op een Azure Databricks-cluster met behulp van de gebruikersinterface van het cluster.
Als u een Python-bibliotheek wilt installeren met behulp van een Azure Databricks-notebook, raadpleegt u Python-bibliotheken met notebookbereik.
Als u een R-bibliotheek wilt installeren met behulp van een Azure Databricks-notebook, raadpleegt u R-bibliotheken met notebookbereik.

Databricks-gegevenssets (databricks-datasets) gekoppeld aan DBFS

Azure Databricks raadt aan om DBFS en gekoppelde cloudobjectopslag te gebruiken voor de meeste gebruiksvoorbeelden in Databricks-werkruimten met Unity Catalog. Sommige voorbeeldgegevenssets die zijn gekoppeld aan DBFS , zijn beschikbaar in Azure Databricks

Notitie

De beschikbaarheid en locatie van Databricks-gegevenssets kunnen zonder kennisgeving worden gewijzigd.

Door DBFS gekoppelde Databricks-gegevenssets bladeren

Als u door deze bestanden wilt bladeren vanuit een Python-, Scala- of R-notebook, kunt u de Databricks Utilities-verwijzing (dbutils) gebruiken. De volgende code bevat alle beschikbare Databricks-gegevenssets.

Python

display(dbutils.fs.ls('/databricks-datasets'))

Scala

display(dbutils.fs.ls("/databricks-datasets"))

R

%fs ls "/databricks-datasets"

Delen via