Voorbeeldgegevenssets
Er zijn verschillende voorbeeldgegevenssets van Azure Databricks en beschikbaar gesteld door derden die u kunt gebruiken in uw Azure Databricks-werkruimte.
Unity Catalog-gegevenssets
Unity Catalog biedt toegang tot een aantal voorbeeldgegevenssets in de samples
catalogus. U kunt deze gegevenssets bekijken in de gebruikersinterface van Catalog Explorer en deze rechtstreeks in een notebook of in de SQL-editor verwijzen met behulp van het <catalog-name>.<schema-name>.<table-name>
patroon.
Het nyctaxi
schema (ook wel een database genoemd) bevat de tabel trips
, met details over taxiritten in New York City. Met de volgende instructie worden de eerste 10 records in deze tabel geretourneerd:
SELECT * FROM samples.nyctaxi.trips LIMIT 10
Het tpch
schema bevat gegevens uit de TPC-H-benchmark. Voer de volgende opdracht uit om de tabellen in dit schema weer te geven:
SHOW TABLES IN samples.tpch
Voorbeeldgegevenssets van derden in CSV-indeling
Azure Databricks heeft ingebouwde hulpprogramma's om snel voorbeeldgegevenssets van derden te uploaden als csv-bestanden (door komma's gescheiden waarden) naar Azure Databricks-werkruimten. Enkele populaire voorbeeldgegevenssets van derden die beschikbaar zijn in CSV-indeling:
Voorbeeldgegevensset | De voorbeeldgegevensset downloaden als een CSV-bestand... |
---|---|
De eekhoorn volkstelling | Klik op de webpagina Gegevens op Park Data, Eekhoorngegevens of Verhalen. |
OWID-gegevenssetverzameling | Klik in de GitHub-opslagplaats op de map gegevenssets . Klik op de submap met de doelgegevensset en klik vervolgens op het CSV-bestand van de gegevensset. |
DATA.GOV CSV-gegevenssets | Klik op de webpagina met zoekresultaten op het doelzoekresultaat en klik naast het CSV-pictogram op Downloaden. |
Diamanten (vereist een Kaggle-account ) | Klik op de webpagina van de gegevensset, op het tabblad Gegevens, op het tabblad Gegevens, naast diamonds.csv, op het pictogram Downloaden. |
Duur van taxirit nyc (vereist een Kaggle-account ) | Klik op de webpagina van de gegevensset op het tabblad Gegevens naast sample_submission.zip op de knop Downloadpictogram . Als u de CSV-bestanden van de gegevensset wilt zoeken, extraheert u de inhoud van het gedownloade ZIP-bestand. |
Ga als volgt te werk om voorbeeldgegevenssets van derden te gebruiken in uw Azure Databricks-werkruimte:
- Volg de instructies van derden om de gegevensset als EEN CSV-bestand te downloaden naar uw lokale computer.
- Upload het CSV-bestand vanaf uw lokale computer naar uw Azure Databricks-werkruimte.
- Als u met de geïmporteerde gegevens wilt werken, gebruikt u Databricks SQL om een query uit te voeren op de gegevens. U kunt ook een notebook gebruiken om de gegevens als een DataFrame te laden.
Voorbeeldgegevenssets van derden in bibliotheken
Sommige derden bevatten voorbeeldgegevenssets in bibliotheken, zoals PyPI-pakketten (Python Package Index) of Uitgebreide R Archive Network-pakketten (CRAN). Zie de documentatie van de bibliotheekprovider voor meer informatie.
- Zie Clusterbibliotheken als u een bibliotheek wilt installeren op een Azure Databricks-cluster met behulp van de gebruikersinterface van het cluster.
- Als u een Python-bibliotheek wilt installeren met behulp van een Azure Databricks-notebook, raadpleegt u Python-bibliotheken met notebookbereik.
- Als u een R-bibliotheek wilt installeren met behulp van een Azure Databricks-notebook, raadpleegt u R-bibliotheken met notebookbereik.
Databricks-gegevenssets (databricks-datasets) gekoppeld aan DBFS
Azure Databricks raadt aan om DBFS en gekoppelde cloudobjectopslag te gebruiken voor de meeste gebruiksvoorbeelden in Databricks-werkruimten met Unity Catalog. Sommige voorbeeldgegevenssets die zijn gekoppeld aan DBFS , zijn beschikbaar in Azure Databricks
Notitie
De beschikbaarheid en locatie van Databricks-gegevenssets kunnen zonder kennisgeving worden gewijzigd.
Door DBFS gekoppelde Databricks-gegevenssets bladeren
Als u door deze bestanden wilt bladeren vanuit een Python-, Scala- of R-notebook, kunt u de Databricks Utilities-verwijzing (dbutils) gebruiken. De volgende code bevat alle beschikbare Databricks-gegevenssets.
Python
display(dbutils.fs.ls('/databricks-datasets'))
Scala
display(dbutils.fs.ls("/databricks-datasets"))
R
%fs ls "/databricks-datasets"