Ukázkové datové sady

Článek
01/23/2025

Azure Databricks poskytuje celou řadu ukázkových datových sad a zpřístupnil je třetí strany, které můžete použít ve svém pracovním prostoru Azure Databricks.

Datové sady katalogu Unity

katalog Unity poskytuje přístup k řadě ukázkových datových sad v katalogu samples. Tyto datové sady si můžete prohlédnout v uživatelském Průzkumníka katalogu a odkazovat na ně přímo v poznámkovém bloku nebo v editoru SQL pomocí vzoru .

Schéma nyctaxi (označované také jako databáze) obsahuje tabulku trips, která obsahuje podrobnosti o jízdách taxíkem v New Yorku. Následující příkaz vrátí prvních 10 záznamů v této tabulce:

SELECT * FROM samples.nyctaxi.trips LIMIT 10

Schéma tpch obsahuje data z benchmarku TPC-H. Pokud chcete zobrazit seznam tabulek v tomto schématu, spusťte:

SHOW TABLES IN samples.tpch

Ukázkové datové sady třetích stran ve formátu CSV

Azure Databricks má integrované nástroje pro rychlé nahrání ukázkových datových sad třetích stran jako soubory hodnot oddělených čárkami (CSV) do pracovních prostorů Azure Databricks. Některé oblíbené ukázkové datové sady třetích stran dostupné ve formátu CSV:

Ukázková datová sada	Stažení ukázkové datové sady jako souboru CSV...
Veverka Sčítání lidu	Na webové stránce Data klikněte na Park Data, Data veverka nebo příběhy.
Kolekce datových sad OWID	V úložišti GitHub klikněte na složku datových sad. Klikněte na podsložku obsahující cílovou datovou sadu a potom klikněte na soubor CSV datové sady.
Data.gov datových sad CSV	Na webové stránce výsledků hledání klikněte na cílový výsledek hledání a vedle ikony CSV klikněte na Tlačítko Stáhnout.
Kosočtverce (vyžaduje účet Kaggle )	Na webové stránce datové sady klikněte na kartě Data na kartě Data vedle diamonds.csv na ikonu Stáhnout.
NYC Taxi Trip Duration (Vyžaduje účet Kaggle )	Na webové stránce datové sady klikněte na kartě Data vedle sample_submission.zip Ikona pro stažení Pokud chcete najít soubory CSV datové sady, extrahuje obsah staženého souboru ZIP.

Pokud chcete v pracovním prostoru Azure Databricks použít ukázkové datové sady třetích stran, postupujte takto:

Podle pokynů třetích stran si datovou sadu stáhněte jako soubor CSV do místního počítače.
Nahrajte soubor CSV z místního počítače do pracovního prostoru Azure Databricks.
Pokud chcete pracovat s importovanými daty, použijte Databricks SQL k dotazování dat. Nebo můžete použít poznámkový blok k načtení dat jako datového rámce.

Ukázkové datové sady třetích stran v knihovnách

Některé třetí strany zahrnují ukázkové datové sady v knihovnách, jako jsou balíčky PyPI (Python Package Index) nebo balíčky CRAN (Comprehensive R Archive Network). Další informace najdete v dokumentaci poskytovatele knihovny.

Pokud chcete nainstalovat knihovnu do clusteru Azure Databricks pomocí uživatelského rozhraní clusteru, přečtěte si téma Knihovny clusteru.
Pokud chcete nainstalovat knihovnu Pythonu pomocí poznámkového bloku Azure Databricks, přečtěte si téma Knihovny Pythonu v oboru poznámkového bloku.
Pokud chcete nainstalovat knihovnu R pomocí poznámkového bloku Azure Databricks, přečtěte si téma Knihovny jazyka R s oborem poznámkového bloku.

Datové sady Databricks (datové sady Databricks) připojené k DBFS

Azure Databricks nedoporučuje používat DBFS a připojené cloudové úložiště objektů pro většinu případů použití v pracovních prostorech Databricks, které podporují katalog Unity. Některé ukázkové datové sady připojené k DBFS jsou k dispozici v Azure Databricks.

Poznámka:

Dostupnost a umístění datových sad Databricks se můžou bez předchozího upozornění změnit.

Procházení databází připojených k datovým sadám Databricks

K procházení těchto souborů z poznámkového bloku Python, Scala nebo R můžete použít referenční informace k nástrojům Databricks (dbutils). Následující kód obsahuje seznam všech dostupných datových sad Databricks.

Python

display(dbutils.fs.ls('/databricks-datasets'))

Scala

display(dbutils.fs.ls("/databricks-datasets"))

R

%fs ls "/databricks-datasets"

Sdílet prostřednictvím