Exempeldatauppsättningar
Det finns en mängd olika exempeldatauppsättningar som tillhandahålls av Azure Databricks och görs tillgängliga av tredje part som du kan använda på din Azure Databricks-arbetsyta.
Unity Catalog-datauppsättningar
Unity Catalog ger åtkomst till ett antal exempeldatauppsättningar i samples
katalogen. Du kan granska dessa datauppsättningar i katalogutforskarens användargränssnitt och referera till dem direkt i en notebook-fil eller i SQL-redigeraren med hjälp <catalog-name>.<schema-name>.<table-name>
av mönstret.
Schemat nyctaxi
(även kallat en databas) innehåller tabellen trips
, som innehåller information om taxiresor i New York City. Följande instruktion returnerar de första 10 posterna i den här tabellen:
SELECT * FROM samples.nyctaxi.trips LIMIT 10
Schemat tpch
innehåller data från TPC-H Benchmark. Om du vill visa en lista över tabellerna i det här schemat kör du:
SHOW TABLES IN samples.tpch
Exempeldatauppsättningar från tredje part i CSV-format
Azure Databricks har inbyggda verktyg för att snabbt ladda upp exempeldatauppsättningar från tredje part som kommaavgränsade värden (CSV)-filer till Azure Databricks-arbetsytor. Några populära exempeldatauppsättningar från tredje part som är tillgängliga i CSV-format:
Exempeldatauppsättning | Så här laddar du ned exempeldatauppsättningen som en CSV-fil... |
---|---|
Ekorreräkningen | På webbsidan Data klickar du på Parkera data, Ekorredata eller berättelser. |
OWID-datauppsättningssamling | Klicka på mappen datamängder på GitHub-lagringsplatsen. Klicka på den undermapp som innehåller måldatauppsättningen och klicka sedan på datauppsättningens CSV-fil. |
Data.gov CSV-datauppsättningar | På webbsidan för sökresultat klickar du på sökresultatet och bredvid CSV-ikonen klickar du på Ladda ned. |
Diamanter (kräver ett Kaggle-konto ) | På datauppsättningens webbsida går du till fliken Data och klickar på ikonen Ladda ned bredvid diamonds.csv på fliken Data. |
Varaktighet för nyc taxiresa (kräver ett Kaggle-konto ) | På datauppsättningens webbsida går du till fliken Data bredvid sample_submission.zip och klickar på Nedladdningsikon . Om du vill hitta datauppsättningens CSV-filer extraherar du innehållet i den nedladdade ZIP-filen. |
Om du vill använda exempeldatauppsättningar från tredje part på din Azure Databricks-arbetsyta gör du följande:
- Följ instruktionerna från tredje part för att ladda ned datamängden som en CSV-fil till den lokala datorn.
- Ladda upp CSV-filen från den lokala datorn till din Azure Databricks-arbetsyta.
- Om du vill arbeta med importerade data använder du Databricks SQL för att fråga efter data. Eller så kan du använda en notebook-fil för att läsa in data som en DataFrame.
Exempeldatauppsättningar från tredje part i bibliotek
Vissa tredje parter inkluderar exempeldatauppsättningar i bibliotek, till exempel PyPI-paket (Python Package Index) eller CRAN-paket (Comprehensive R Archive Network). Mer information finns i biblioteksleverantörens dokumentation.
- Information om hur du installerar ett bibliotek i ett Azure Databricks-kluster med hjälp av klustrets användargränssnitt finns i Klusterbibliotek.
- Information om hur du installerar ett Python-bibliotek med hjälp av en Azure Databricks-notebook-fil finns i Python-bibliotek med notebook-omfattning.
- Information om hur du installerar ett R-bibliotek med hjälp av en Azure Databricks-notebook-fil finns i R-bibliotek med notebook-omfattning.
Databricks-datamängder (databricks-datamängder) monterade på DBFS
Azure Databricks rekommenderar att du inte använder DBFS och monterad molnobjektlagring för de flesta användningsfall i Unity Catalog-aktiverade Databricks-arbetsytor. Vissa exempeldatauppsättningar som monterats på DBFS är tillgängliga i Azure Databricks
Kommentar
Tillgängligheten och platsen för Databricks-datauppsättningar kan komma att ändras utan föregående meddelande.
Bläddra bland DBFS-monterade Databricks-datamängder
Om du vill bläddra bland dessa filer från en Python-, Scala- eller R-notebook-fil kan du använda databricks Utilities-referens (dbutils). Följande kod visar alla tillgängliga Databricks-datamängder.
Python
display(dbutils.fs.ls('/databricks-datasets'))
Scala
display(dbutils.fs.ls("/databricks-datasets"))
R
%fs ls "/databricks-datasets"