Set di dati di esempio
Esistono diversi set di dati di esempio forniti da Azure Databricks e resi disponibili da terze parti che è possibile usare nell'area di lavoro di Azure Databricks.
Set di dati del catalogo Unity
Il catalogo unity consente di accedere a diversi set di dati di esempio nel samples
catalogo. È possibile esaminare questi set di dati nell'interfaccia utente di Esplora cataloghi e farvi riferimento direttamente in un notebook o nell'editor SQL usando il <catalog-name>.<schema-name>.<table-name>
modello .
Lo nyctaxi
schema (noto anche come database) contiene la tabella trips
, che contiene informazioni dettagliate sulle corse in taxi a New York City. L'istruzione seguente restituisce i primi 10 record in questa tabella:
SELECT * FROM samples.nyctaxi.trips LIMIT 10
Lo tpch
schema contiene i dati del benchmark TPC-H. Per elencare le tabelle in questo schema, eseguire:
SHOW TABLES IN samples.tpch
Set di dati di esempio di terze parti in formato CSV
Azure Databricks include strumenti predefiniti per caricare rapidamente set di dati di esempio di terze parti come file con valori delimitati da virgole (CSV) nelle aree di lavoro di Azure Databricks. Alcuni set di dati di esempio di terze parti più diffusi disponibili in formato CSV:
Set di dati di esempio | Per scaricare il set di dati di esempio come file CSV... |
---|---|
Il censimento dello scoiattolo | Nella pagina Web Dati fare clic su Park Data (Park Data), Dati scoiattolo o storie. |
Raccolta di set di dati OWID | Nel repository GitHub fare clic sulla cartella set di dati. Fare clic sulla sottocartella contenente il set di dati di destinazione e quindi sul file CSV del set di dati. |
set di dati CSV Data.gov | Nella pagina Web dei risultati della ricerca fare clic sul risultato della ricerca di destinazione e accanto all'icona CSV fare clic su Scarica. |
Diamanti (richiede un account Kaggle ) | Nella scheda Dati della pagina Web del set di dati fare clic sull'icona Download nella scheda Dati accanto a diamonds.csv. |
Durata corsa taxi di New York (richiede un account Kaggle ) | Nella pagina Web del set di dati fare clic sulla scheda Dati accanto a sample_submission.zip Icona di download . Per trovare i file CSV del set di dati, estrae il contenuto del file ZIP scaricato. |
Per usare set di dati di esempio di terze parti nell'area di lavoro di Azure Databricks, eseguire le operazioni seguenti:
- Seguire le istruzioni di terze parti per scaricare il set di dati come file CSV nel computer locale.
- Caricare il file CSV dal computer locale nell'area di lavoro di Azure Databricks.
- Per usare i dati importati, usare Databricks SQL per eseguire query sui dati. In alternativa, è possibile usare un notebook per caricare i dati come dataframe.
Set di dati di esempio di terze parti all'interno delle librerie
Alcune terze parti includono set di dati di esempio all'interno di librerie, ad esempio pacchetti Python Package Index (PyPI) o pacchetti CRAN (Comprehensive R Archive Network). Per altre informazioni, vedere la documentazione del provider di librerie.
- Per installare una libreria in un cluster Di Azure Databricks usando l'interfaccia utente del cluster, vedere Librerie di cluster.
- Per installare una libreria Python usando un notebook di Azure Databricks, vedere Librerie Python con ambito notebook.
- Per installare una libreria R usando un notebook di Azure Databricks, vedere Librerie R con ambito notebook.
Set di dati di Databricks (databricks-datasets) montati in DBFS
Azure Databricks consiglia di usare DBFS e l'archiviazione di oggetti cloud montati per la maggior parte dei casi d'uso nelle aree di lavoro di Databricks abilitate per Unity Catalog. Alcuni set di dati di esempio montati in DBFS sono disponibili in Azure Databricks
Nota
La disponibilità e la posizione dei set di dati di Databricks sono soggetti a modifiche senza preavviso.
Esplorare i set di dati di Databricks montati in DBFS
Per esplorare questi file da un notebook Python, Scala o R, è possibile usare le utilità di Databricks (dbutils). Il codice seguente elenca tutti i set di dati di Databricks disponibili.
Python
display(dbutils.fs.ls('/databricks-datasets'))
Scala
display(dbutils.fs.ls("/databricks-datasets"))
R
%fs ls "/databricks-datasets"